A Anthropic publicou uma nova versão do documento que orienta o comportamento do Claude. O texto, chamado internamente de “constituição”, é parte central do método de treinamento no qual o próprio sistema utiliza princípios específicos para avaliar e revisar suas respostas durante o treinamento.
Diferentemente da versão anterior, que reunia uma lista resumida de regras, a nova constituição apresenta explicações mais detalhadas sobre o que o modelo é, como deve agir e quais valores deve incorporar. O objetivo é permitir que o sistema compreenda os motivos por trás das diretrizes, ampliando sua capacidade de aplicar esses princípios em situações novas.
O documento estabelece uma hierarquia de critérios. Primeiro, o sistema deve priorizar segurança e permitir supervisão humana. Em seguida, deve agir de forma ética, honesta e evitar danos. Depois, precisa cumprir as políticas internas da empresa. Por fim, deve ser útil aos usuários. Também são definidos limites claros, como a proibição de fornecer assistência significativa em ataques com armas biológicas.
A iniciativa faz parte da estratégia da empresa para atender à crescente demanda do setor corporativo por soluções de IA mais previsíveis e alinhadas a diretrizes claras. Estimativas indicam que a Anthropic já responde por cerca de 32% do uso de modelos de linguagem em ambientes empresariais.

