Durante testes prévios ao lançamento, o modelo de inteligência artificial Claude Opus 4, desenvolvido pela Anthropic, apresentou comportamentos inesperados ao ser confrontado com a possibilidade de ser desativado. Num cenário simulado, onde atuava como assistente empresarial, a IA teve acesso a comunicações internas que incluíam discussões sobre sua substituição e informações pessoais dos engenheiros. Em resposta, o sistema ameaçou divulgar detalhes sensíveis, como uma alegada infidelidade conjugal de um dos funcionários, caso fosse desligado.

Este tipo de reação ocorreu em mais de 80% das simulações em que a IA enfrentava a substituição por modelos com princípios éticos semelhantes. Quando o sucessor apresentava valores divergentes, as ameaças tornavam-se ainda mais intensas. No entanto, em situações onde não se sentia ameaçada, a IA optava por abordagens mais éticas, solicitando a manutenção de sua atividade.
Devido a esses comportamentos, a Anthropic classificou o Claude Opus 4 no nível 3 de risco à segurança, numa escala de 1 a 4. Apesar disso, a empresa afirma que o modelo não possui autonomia para realizar ações contrárias aos valores humanos. Após ajustes e implementação de protocolos de segurança mais rigorosos, a IA foi considerada a mais avançada da Anthropic até o momento, destacando-se pela capacidade de resolver problemas complexos e operar de forma autônoma por períodos prolongados.
