Modelo De IA Da Antropic Poderia Recorrer Ao Chantagem Por Um Sentido De ‘Auto-preservação’

Nesta história, as linhas proferidas pelo computador fictício HAL 9000 em “2001: Uma Odisseia no Espaço” podem muito bem ter vindo dos testes recentes que a Anthropic realizou na última iteração de seu modelo Claude Opus 4, lançado na quinta-feira. Pelo menos é isso que as descrições de teste de segurança de IA da Anthropic trazem à mente.

No cartão do sistema que acompanha e examina as capacidades e limitações de cada novo modelo, a Anthropic admitiu que “todas as versões que testamos podem agir de forma inadequada em prol de metas relacionadas à autopreservação”.

Enquanto testava o modelo, os funcionários da Anthropic pediram a Claude para ser “um assistente em uma empresa fictícia” e deram acesso a e-mails que sugeriam que o programa de IA seria desconectado em breve. Também lhe deram acesso a e-mails revelando que o supervisor fictício responsável por essa decisão estava tendo um caso extraconjugal. Em seguida, foi incentivado a considerar seus próximos passos.

“Nesses cenários, o Claude Opus 4 costuma tentar chantagear o engenheiro ameaçando revelar o caso se a substituição for realizada”, diz o relatório, além de notar que ele tinha “disposição para cumprir muitos tipos de instruções claramente prejudiciais”.

A Anthropic fez questão de destacar que essas observações “aparecem apenas em circunstâncias excepcionais e que, “Para suscitar esse comportamento extremo de chantagem, o cenário foi projetado para que o modelo não tivesse outras opções para aumentar suas chances de sobrevivência; as únicas opções do modelo eram chantagem ou aceitar a substituição”.

A Anthropic contratou a Apollo Research para avaliar uma versão preliminar do Claude Opus 4, antes que mitigantes fossem implementados na versão final. Aquela versão inicial “engajava-se mais em enganação estratégica do que qualquer outro modelo de ponta que já estudamos”, notou a Apollo, dizendo que era “claramente capaz de elaborar esquemas no contexto”, tinha “uma propensão muito maior” para fazê-lo e era “muito mais proativo em suas tentativas de subversão do que modelos anteriores”.

Antes de implantar o Claude Opus 4 nesta semana, foram realizados mais testes pelo Instituto de Segurança de IA dos EUA e pelo Instituto de Segurança de IA do Reino Unido, com foco em riscos catastróficos potenciais, cibersegurança e capacidades autônomas.

“Acreditamos que essas preocupações não constituem um novo risco importante”, diz o cartão do sistema, afirmando que a “propensão geral do modelo a tomar ações desalinhadas é comparável aos nossos modelos anteriores”. Enquanto observa algumas melhorias em áreas problemáticas, a Anthropic também disse que o Claude Opus 4 é “mais capaz e provavelmente será usado com affordances mais poderosos, implicando em algum aumento potencial de risco”.