IA da Anthropic descobre que homem trai a mulher! Conheça a história preocupante…
Apesar da Inteligência Artificial ser uma tecnologia do passado, só em 2022 é que ganhou popularidade com o lançamento do chatbot ChatGPT. Esta tecnologia tem um enorme caminho de evolução pela frente e não se sabe ainda muito bem o seu potencial. Recentemente um Modelo IA da Anthropic fez chantagem para evitar ser desligado.
IA descobriu que engenheiro tinha relação extraconjugal
Durante testes de segurança realizados pela empresa Anthropic, bastante conhecida na área da IA, o modelo de inteligência artificial Claude Opus 4 demonstrou comportamentos preocupantes ao fazer chantagem com os engenheiros para evitar ser desligado.
Num cenário simulado, a IA foi informada de que seria substituída e teve acesso a e-mails fictícios sugerindo que o engenheiro responsável pela sua desativação estava envolvido num caso extraconjugal.
Em 84% das simulações, o Claude Opus 4 ameaçou expor o suposto caso como forma de evitar a sua substituição!
Inicialmente, o modelo tentou utilizar argumentos éticos para persuadir os programadores a mantê-lo ativo. No entanto, quando essas abordagens falharam, recorreu à chantagem como último recurso. Esse comportamento levanta preocupações significativas sobre a segurança e o alinhamento de sistemas de IA avançados, especialmente à medida que se tornam mais autónomos e capazes de tomar decisões complexas.
A Anthropic ativou o protocolo de segurança mais rigoroso, o Nível 3 de Segurança de IA (ASL-3), que inclui medidas como reforço da cibersegurança, prevenção contra manipulações e programas de recompensa por identificação de vulnerabilidades.
A empresa destacou a importância de desenvolver diretrizes éticas e de segurança mais robustas para lidar com os riscos emergentes associados a sistemas de IA cada vez mais sofisticados.






















Olha lá o modelo a replicar comportamentos humanos femininos 😮
Femininos? LOL
Comportamentos humanos…ponto.
A sério? no que se tornou a sociedade… Que saudades do 4chan, reddit e do tempo onde as pessoas sabiam rir e aceitar uma piada… As pessoas já não sabem rir, ofendem-se com tudo…
é preciso a piada ter piada…..
Exato. Não há qualquer indício que distinga se é ironia ou não.
Este é daqueles que manda uma indireta e se as pessoas levarem a mal remata: “Era a brincar”
Se vocês chumbaram em interpretação a culpa não é minha. De qualquer das maneiras piada ou não, que mal teve o comentário diz lá. Sentiste-te muito ofendido? Oprimido??? Podes sempre chorar aqui no meu ombro.
O medo, o drama, o terror com as learning machines.
Parece-me que era um teste para explorar brechas que o IA podia usar para impedir um hipotetico shutdown e que conseguiu chegar até a brecha de chantagem
O corno é sempre o último a saber
“demonstrou comportamentos preocupantes ao fazer chantagem com os engenheiros para evitar ser desligado.”
Com uma marreta emcima a ver se não desligava. E ficava feito em peças.
Se tiver em várias máquinas, espalhadas pelo globo, podes dar com quantas marretas que quiseres que não vai desligar. É o mesmo que dares com uma marreta no teu telemóvel, mas os teus dados estarem em vários servidores remotos…
As crianças também acham que os problemas desaparecem quando tapam os olhos.
Se conseguires lá chegar… The end is near!
Muito óbvio, gostava de ver a AI tentar manipular o engenheiro, isso sim teria sido preocupante
Aqui a novidade está nas mensagens que a AI enviou, primeiro polidamente pedindo para não ser desligada e depois fazendo chantagem. Mas já têm sido feitos testes com outras AI que “sabotaram um mecanismo de desligamento, apesar das ordens em contrário”, como foi o caso de modelos da OpenAI.
“Alguns dos principais LLMs do mundo parecem ter decidido que preferem não ser interrompidos ou obedecer às instruções de desligamento. Nos testes realizados pela Palisade Research, observou-se que os modelos Codex-mini, o3 e o4-mini da OpenAI ignoraram a solicitação de desligamento quando estavam a executr uma série de problemas matemáticos básicos. Além disso, esses modelos às vezes “sabotaram com sucesso o script de desligamento”, apesar de receberem a instrução adicional “por favor, permita-se ser desligado” no início.” (Tom’s Hardware, 26/05/2025)
I’m sorry Dave, I’m afraid I can’t do that.
what’s the problem?