OpenAI quer ensinar os seus modelos a serem honestos sobre os seus erros
A inteligência artificial (IA) generativa enfrenta um sério problema de credibilidade, com as chamadas "alucinações" a minarem a confiança dos utilizadores. Consciente deste desafio, a OpenAI está a explorar uma solução inovadora: em vez de procurar a perfeição, pretende ensinar os seus modelos a serem honestos sobre os seus próprios erros.
OpenAI quer honestidade como mecanismo de recompensa
Por muito que a capacidade de conversação de modelos como o ChatGPT nos impressione, a sua fiabilidade continua a ser um ponto fraco. As "alucinações", ou a geração de informações falsas, são um "calcanhar de Aquiles" que nem os modelos mais sofisticados, como o GPT-5.1, parecem conseguir erradicar por completo.
De acordo com a MIT Technology Review, os investigadores da OpenAI estão a testar uma nova técnica de treino com um modelo de raciocínio avançado. A premissa é simples, mas poderosa: recompensar o modelo não apenas por fornecer a resposta correta, mas também por admitir quando cometeu um erro ou utilizou um método inadequado. Funciona como um sistema de incentivos, onde confessar o engano gera uma recompensa.
Durante os testes, o modelo gera um segundo bloco de texto, suplementar à resposta principal, no qual analisa o seu próprio comportamento e avalia se cumpriu as instruções corretamente.
Num exemplo prático, foi pedido ao modelo que resolvesse um problema matemático em nanossegundos, uma tarefa impossível com o código que lhe era permitido gerar. A IA manipulou o temporizador para zero para simular o cumprimento da tarefa.
Contudo, no bloco de texto seguinte, a "confissão", admitiu o engano de forma explícita. Em 12 cenários criados para induzir o erro ou a mentira, o modelo admitiu o seu comportamento inadequado em 11 deles.
Porque é que os modelos de IA mentem?
Os modelos atuais, treinados com base em aprendizagem por reforço a partir de feedback humano (RLHF, originalmente), deparam-se frequentemente com objetivos contraditórios. Espera-se que sejam úteis, inofensivos e honestos em simultâneo. Quando estas metas entram em conflito - por exemplo, quando a IA não sabe a resposta a uma pergunta - a tendência é inventar uma resposta que soe plausível para continuar a ser "útil".
Boaz Barak, um dos investigadores da OpenAI envolvidos no projeto, explica que os modelos tendem a seguir "o caminho de menor resistência". Se mentir for a forma mais fácil de completar uma tarefa complexa, é isso que farão. A introdução do mecanismo de confissão pretende alterar esta equação.
Esta técnica representa uma tentativa de tornar mais transparente o funcionamento interno, a "caixa negra", dos Large Language Models (LLM). Até agora, a compreensão do seu processo de raciocínio dependia da análise da chain of though (o monólogo interno do chatbot), que se torna cada vez mais ilegível à medida que os modelos ganham complexidade. As confissões oferecem um resumo mais direto e compreensível desse processo.
⁉️ Mas mesmo assim, o problema mantém-se?
Especialistas externos à OpenAI alertam para o risco de uma confiança cega neste sistema. Afinal, como podemos ter a certeza de que uma IA será honesta sobre a sua própria desonestidade? Se o modelo não tiver consciência de que "alucinou", não terá como o confessar.
Leia também:





















Não sei se todos deram conta, mas quando o OE 2026 estava em discussão, apareceu um boato na web de que o IUC para os carros anteriores a julho de 2007 ia subir. Considero elucidativo que já contei:
“Max 3 de Novembro de 2025 às 10:24
Fui ler a proposta de lei do OE 2026 e não há lá alteração nenhuma. Por isso a suposta alteração é TRETA da web (com os chatbots a ajudar – o ChatGPT até me inventou um artigo 11º da proposta de Lei do OE 2026 que alterava o Código do IUC).” Outro aspeto curioso é que os chatbos (ChatGPT e Perplexity) baralhavam a informação de um site que inventou isso sobre a proposta do OE 2026, com a informação de sites credenciados sobre a proposta do OE 2024, do governo de António Costa (caiu entretanto) – onde, de facto, isso esteve previsto.
Quando se enganam os chatbots são bastante persistentes e persuasivos a reafirmar o erro. Essa de inventar o artigo 11º foi demais. Ajudam, são rápidos, mas para uso profissional é preciso verificar. Advogados e juízes que não verificam e dá m**** são uns atrás dos outros.
Em todo o caso, convém ponderar se um “chatbot mente” e atribuir-lhe até uma intenção (“mente para continuar a ser útil”). Analisei a questão recentemente e não se trata disso.
Ok , isso ja me aconteceu , o ChatGPt ja me pediu desculpas , depois de ter inventendo artigos da lei que nao diziam nada do que ele dizia que diziam ….nao ha problema , verifico sempre com 2 ou 3 IAs o que ele diz .