Apesar da Inteligência Artificial ser uma tecnologia do passado, só em 2022 é que ganhou popularidade com o lançamento do chatbot ChatGPT. Esta tecnologia tem um enorme caminho de evolução pela frente e não se sabe ainda muito bem o seu potencial. Recentemente um Modelo IA da Anthropic fez chantagem para evitar ser desligado.
IA descobriu que engenheiro tinha relação extraconjugal
Durante testes de segurança realizados pela empresa Anthropic, bastante conhecida na área da IA, o modelo de inteligência artificial Claude Opus 4 demonstrou comportamentos preocupantes ao fazer chantagem com os engenheiros para evitar ser desligado.
Num cenário simulado, a IA foi informada de que seria substituída e teve acesso a e-mails fictícios sugerindo que o engenheiro responsável pela sua desativação estava envolvido num caso extraconjugal.
Em 84% das simulações, o Claude Opus 4 ameaçou expor o suposto caso como forma de evitar a sua substituição!
Inicialmente, o modelo tentou utilizar argumentos éticos para persuadir os programadores a mantê-lo ativo. No entanto, quando essas abordagens falharam, recorreu à chantagem como último recurso. Esse comportamento levanta preocupações significativas sobre a segurança e o alinhamento de sistemas de IA avançados, especialmente à medida que se tornam mais autónomos e capazes de tomar decisões complexas.
A Anthropic ativou o protocolo de segurança mais rigoroso, o Nível 3 de Segurança de IA (ASL-3), que inclui medidas como reforço da cibersegurança, prevenção contra manipulações e programas de recompensa por identificação de vulnerabilidades.
A empresa destacou a importância de desenvolver diretrizes éticas e de segurança mais robustas para lidar com os riscos emergentes associados a sistemas de IA cada vez mais sofisticados.