Ainda que ler a atividade cerebral com tecnologias avançadas não seja um conceito novo, um investigador desenvolveu uma nova abordagem: a chamada técnica de “legenda mental” permite ler os pensamentos humanos a partir de exames cerebrais.
A par da invisibilidade ou de dinheiro infinito, um dos desejos de muitas pessoas é a capacidade de ler mentes e, com a tecnologia de hoje, já é possível fazê-lo.
No entanto, a maioria das técnicas tem-se concentrado em identificar palavras isoladas associadas a um objeto ou ação que uma pessoa está a ver ou a pensar, ou em corresponder sinais cerebrais a palavras faladas.
Alguns métodos usam bases de dados de legendas ou redes neurais profundas, mas essas abordagens são limitadas pela cobertura de palavras da base de dados ou introduzem informações que não estão presentes no cérebro.
Gerar descrições detalhadas e estruturadas de perceções visuais ou pensamentos complexos continua a ser difícil.
Nova técnica de “legenda mental”
Agora, um novo estudo adota uma nova abordagem: perante as limitações citadas acima, o investigador desenvolveu uma técnica à qual chamou “legenda mental”.
Esta usa um processo de otimização iterativo, no qual um modelo de linguagem simulada (em inglês, masked language models – MLM) gera descrições de texto, alinhando características de texto com características descodificadas pelo cérebro.
A técnica incorpora, também, modelos lineares treinados para descodificar características semânticas de um modelo de linguagem profundo, usando a atividade cerebral da ressonância magnética funcional (em inglês, fMRI).
Desta forma, o investigador conseguiu obter uma descrição textual detalhada do que um participante está a ver no seu cérebro.
Técnica de “legenda mental” testada em duas fases. Fonte: Tomoyasu Horikawa, Mind captioning: Evolving descriptive text of mental content from human brain activity. Sci. Adv. 11, eadw1464 (2025).
Análise da atividade cerebral durante a visualização de vídeos curtos
Na primeira parte dos testes, seis pessoas assistiram a 2196 vídeos curtos enquanto a sua atividade cerebral era monitorizada com fMRI. Os vídeos apresentavam vários objetos, cenas, ações e eventos aleatórios, e os seis participantes eram falantes nativos de japonês e falantes não nativos de inglês.
Os mesmos vídeos foram previamente submetidos a uma espécie de legendagem de texto colaborativa por outros espetadores, processada por um modelo de linguagem pré-treinado, chamado DeBERTa-large, que extraiu características específicas.
Essas características foram combinadas com a atividade cerebral e o texto foi gerado através de um processo iterativo pelo modelo MLM, chamado RoBERTa-large.
Inicialmente, as descrições eram fragmentadas e careciam de um significado claro. No entanto, através da otimização iterativa, estas descrições evoluíram naturalmente para ter uma estrutura coerente e capturar eficazmente os aspetos-chave dos vídeos visualizados. Notavelmente, as descrições resultantes refletiram com precisão o conteúdo, incluindo as mudanças dinâmicas nos eventos visualizados.
Escreveu o investigador, partilhando que “mesmo quando objetos específicos não foram identificados corretamente, as descrições ainda transmitiram com sucesso a presença de interações entre vários objetos”.
Depois, o investigador comparou as descrições geradas com legendas corretas e incorretas em vários números de candidatos para determinar a precisão, que, segundo ele, foi de cerca de 50%.
Segundo o investigador, esse nível de precisão supera outras abordagens atuais e é promissor para melhorias futuras.
Comportamento do cérebro a recordar os mesmo vídeos
Posteriormente, foi solicitado que os mesmos seis participantes relembrassem os vídeos sob fMRI, por forma a testar a capacidade do método de ler a memória, em vez da experiência visual.
Segundo partilhado, os resultados desta parte da experiência foram, também, promissores.
A análise gerou com sucesso descrições que refletiam com precisão o conteúdo dos vídeos relembrados, embora a precisão variasse entre os indivíduos.
Porque esta legenda é promissora
Para pessoas que têm a capacidade de falar diminuída ou perdida, como aquelas que sofreram um derrame, esta nova técnica, uma vez aprimorada, poderia servir como uma forma de restaurar a comunicação.
O facto de o sistema ter mostrado ser capaz de captar significados e relações mais profundas, em vez de simples associações de palavras, poderia permitir que esses indivíduos recuperassem muito mais da sua capacidade de comunicação do que alguns dos outros métodos de interface cérebro-computador.
Ainda assim, além de ser necessário ultrapassar questões relativas à privacidade e ao potencial uso indevido da tecnologia de conversão de pensamentos em texto, é necessária uma otimização adicional, bem como testes em amostras maiores, antes de chegar às pessoas que poderiam beneficiar da técnica.
Segundo o investigador, “em conjunto, a nossa abordagem equilibra interpretabilidade, generalização e desempenho, estabelecendo uma estrutura transparente para descodificar o pensamento não verbal em linguagem e abrindo caminho para a investigação sistemática de como a semântica estruturada é codificada no cérebro humano”.