IA da Anthropic descobre que homem trai a mulher! Conheça a história preocupante…

26 Mai 2025 · Inteligência Artificial 17 Comentários

Apesar da Inteligência Artificial ser uma tecnologia do passado, só em 2022 é que ganhou popularidade com o lançamento do chatbot ChatGPT. Esta tecnologia tem um enorme caminho de evolução pela frente e não se sabe ainda muito bem o seu potencial. Recentemente um Modelo IA da Anthropic fez chantagem para evitar ser desligado.

IA descobriu que engenheiro tinha relação extraconjugal

Durante testes de segurança realizados pela empresa Anthropic, bastante conhecida na área da IA, o modelo de inteligência artificial Claude Opus 4 demonstrou comportamentos preocupantes ao fazer chantagem com os engenheiros para evitar ser desligado.

Num cenário simulado, a IA foi informada de que seria substituída e teve acesso a e-mails fictícios sugerindo que o engenheiro responsável pela sua desativação estava envolvido num caso extraconjugal.

Em 84% das simulações, o Claude Opus 4 ameaçou expor o suposto caso como forma de evitar a sua substituição!

Inicialmente, o modelo tentou utilizar argumentos éticos para persuadir os programadores a mantê-lo ativo. No entanto, quando essas abordagens falharam, recorreu à chantagem como último recurso. Esse comportamento levanta preocupações significativas sobre a segurança e o alinhamento de sistemas de IA avançados, especialmente à medida que se tornam mais autónomos e capazes de tomar decisões complexas.

A Anthropic ativou o protocolo de segurança mais rigoroso, o Nível 3 de Segurança de IA (ASL-3), que inclui medidas como reforço da cibersegurança, prevenção contra manipulações e programas de recompensa por identificação de vulnerabilidades.

A empresa destacou a importância de desenvolver diretrizes éticas e de segurança mais robustas para lidar com os riscos emergentes associados a sistemas de IA cada vez mais sofisticados.

Acompanhe o Pplware no Google Notícias

Propor Revisão Proponha uma correção, faça uma sugestão

Autor: Pedro Pinto

Tags: Anthropic IA

Comentários17

36.71Hz says:

26 de Maio de 2025 às 16:12

Olha lá o modelo a replicar comportamentos humanos femininos 😮

Responder
- Hugo says:
  
  26 de Maio de 2025 às 16:43
  
  Femininos? LOL
  Comportamentos humanos…ponto.
  
  Responder
  - 36.71Hz says:
    
    26 de Maio de 2025 às 18:10
    
    A sério? no que se tornou a sociedade… Que saudades do 4chan, reddit e do tempo onde as pessoas sabiam rir e aceitar uma piada… As pessoas já não sabem rir, ofendem-se com tudo…
    
    Responder
    - frango assado says:
      
      26 de Maio de 2025 às 22:05
      
      é preciso a piada ter piada…..
      
      Responder
      - Hugo says:
        
        27 de Maio de 2025 às 08:30
        
        Exato. Não há qualquer indício que distinga se é ironia ou não.
        Este é daqueles que manda uma indireta e se as pessoas levarem a mal remata: “Era a brincar”
      - 36.71Hz says:
        
        27 de Maio de 2025 às 11:05
        
        Se vocês chumbaram em interpretação a culpa não é minha. De qualquer das maneiras piada ou não, que mal teve o comentário diz lá. Sentiste-te muito ofendido? Oprimido??? Podes sempre chorar aqui no meu ombro.
Mário says:

26 de Maio de 2025 às 16:30

O medo, o drama, o terror com as learning machines.

Responder
Sergio J says:

26 de Maio de 2025 às 17:02

Parece-me que era um teste para explorar brechas que o IA podia usar para impedir um hipotetico shutdown e que conseguiu chegar até a brecha de chantagem

Responder
João says:

26 de Maio de 2025 às 17:27

O corno é sempre o último a saber

Responder
Sérgio V. says:

26 de Maio de 2025 às 17:36

“demonstrou comportamentos preocupantes ao fazer chantagem com os engenheiros para evitar ser desligado.”
Com uma marreta emcima a ver se não desligava. E ficava feito em peças.

Responder
- Realista says:
  
  26 de Maio de 2025 às 17:58
  
  Se tiver em várias máquinas, espalhadas pelo globo, podes dar com quantas marretas que quiseres que não vai desligar. É o mesmo que dares com uma marreta no teu telemóvel, mas os teus dados estarem em vários servidores remotos…
  
  Responder
- dofino says:
  
  26 de Maio de 2025 às 18:03
  
  As crianças também acham que os problemas desaparecem quando tapam os olhos.
  
  Responder
- Luis says:
  
  26 de Maio de 2025 às 18:27
  
  Se conseguires lá chegar… The end is near!
  
  Responder
Zé Fonseca A. says:

26 de Maio de 2025 às 23:04

Muito óbvio, gostava de ver a AI tentar manipular o engenheiro, isso sim teria sido preocupante

Responder
Max says:

27 de Maio de 2025 às 00:02

Aqui a novidade está nas mensagens que a AI enviou, primeiro polidamente pedindo para não ser desligada e depois fazendo chantagem. Mas já têm sido feitos testes com outras AI que “sabotaram um mecanismo de desligamento, apesar das ordens em contrário”, como foi o caso de modelos da OpenAI.
“Alguns dos principais LLMs do mundo parecem ter decidido que preferem não ser interrompidos ou obedecer às instruções de desligamento. Nos testes realizados pela Palisade Research, observou-se que os modelos Codex-mini, o3 e o4-mini da OpenAI ignoraram a solicitação de desligamento quando estavam a executr uma série de problemas matemáticos básicos. Além disso, esses modelos às vezes “sabotaram com sucesso o script de desligamento”, apesar de receberem a instrução adicional “por favor, permita-se ser desligado” no início.” (Tom’s Hardware, 26/05/2025)

Responder
Urso says:

27 de Maio de 2025 às 18:36

I’m sorry Dave, I’m afraid I can’t do that.

Responder
- Sérgio says:
  
  28 de Maio de 2025 às 22:47
  
  what’s the problem?
  
  Responder

Deixe um comentário Cancelar Resposta

Aviso: Todo e qualquer texto publicado na internet através deste sistema não reflete, necessariamente, a opinião deste site ou do(s) seu(s) autor(es). Os comentários publicados através deste sistema são de exclusiva e integral responsabilidade e autoria dos leitores que dele fizerem uso. A administração deste site reserva-se, desde já, no direito de excluir comentários e textos que julgar ofensivos, difamatórios, caluniosos, preconceituosos ou de alguma forma prejudiciais a terceiros. Textos de caráter promocional ou inseridos no sistema sem a devida identificação do seu autor (nome completo e endereço válido de email) também poderão ser excluídos.