Modelos de IA mais antigos mostram sinais de declínio cognitivo, diz um novo estudo
Apesar do contacto com as massas ser relativamente recente, a Inteligência Artificial (IA) é estudada há largos anos e a evidência científica é vasta. Curiosamente, os chatbots mais antigos mostram sinais de declínio cognitivo, tendo falhado em métricas importantes num teste normalmente utilizado em seres humanos.
Pelas suas potencialidades, entregamos à IA cada vez mais tarefas, confiando-lhas quase cegamente. Por exemplo, para diagnósticos médicos, pela rapidez e eficiência com que as ferramentas conseguem detetar anomalias e sinais de alerta em historiais clínicos, radiografias e outros conjuntos de dados antes de se tornarem óbvios a olho nu.
Um novo estudo levanta, agora, preocupações de que as tecnologias de IA mostram sinais de deterioração da cognição com a idade, assim como acontece com as pessoas.
Essas descobertas desafiam a suposição de que, em breve, a IA substituirá os médicos humanos. Já que o comprometimento cognitivo evidente nos principais chatbots pode afetar a sua confiabilidade no diagnóstico médico e minar a confiança dos pacientes.
Escreveram os autores do estudo, que testaram chatbots baseados em Large Language Model (LLM) disponíveis publicamente, incluindo o ChatGPT da OpenAI, o Sonnet da Anthropic e o Gemini da Alphabet, usando o teste Montreal Cognitive Assessment.
O Montreal Cognitive Assessment (MoCA) dá nome a uma série de tarefas que os neurologistas usam para testar as habilidades de atenção, memória, linguagem, habilidades espaciais e função mental executiva.
Este teste é mais comummente utilizado para avaliar ou testar o início do défice cognitivo em doenças como a doença de Alzheimer ou a demência.
Por via do MoCA, os sujeitos são submetidos a tarefas como desenhar uma hora específica no mostrador de um relógio, começar com 100 e subtrair sete repetidamente, recordar o maior número possível de palavras de uma lista falada, etc.
Nos seres humanos, 26 em 30 é considerado um resultado satisfatório, ou seja, o sujeito não tem qualquer défice cognitivo.
Apesar de alguns aspetos dos testes, como a nomeação, a atenção, a linguagem e a abstração, terem sido aparentemente fáceis para a maioria dos LLM utilizados, todos eles tiveram um desempenho fraco nas capacidades visuais/ espaciais e nas tarefas executivas, com vários deles a terem um desempenho pior do que outros em áreas como a memória diferida.
Um aspeto crucial é o facto de, enquanto a versão mais recente do ChatGPT (versão 4) obteve 26 em 30), o LLM Gemini 1.0 mais antigo obteve apenas 16 pontos. Com estes dados, os investigadores concluíram que os LLM mais antigos mostram sinais de declínio cognitivo.
Segundo os autores do estudo, as suas conclusões são apenas de observação, pois as diferenças críticas entre as formas de funcionamento da IA e da mente humana significam que o estudo não pode constituir uma comparação direta.
No entanto, advertem para aquilo a que chamam "área significativa de fraqueza", que poderia travar a implementação da IA na medicina clínica. Os cientistas argumentaram, especificamente, contra a utilização da IA em tarefas que requerem abstração visual e função executiva.
Estudo tem demasiadas limitações, segundo outros cientistas
Apesar das conclusões, outros cientistas não ficaram convencidos, tendo criticado os métodos e o enquadramento: os autores do estudo são acusados de antropomorfizar a IA, projetando nela as condições humanas.
Além disso, é criticada a utilização do MoCA. Os cientistas sugerem que, por ser um teste construído para ser exclusivamente utilizado em seres humanos, não produz resultados significativos quando aplicado a outras formas de inteligência.
O MoCA foi concebido para avaliar a cognição humana, incluindo o raciocínio visuo-espacial e a auto-orientação - faculdades que não se coadunam com a arquitetura baseada em texto dos LLM.
Poder-se-ia razoavelmente perguntar: porquê avaliar os LLM com base nestas métricas? As suas deficiências nestas áreas são irrelevantes para as funções que podem desempenhar em contextos clínicos - principalmente tarefas que envolvem o processamento de texto, o resumo de literatura médica complexa e o apoio à decisão.
Escreveu Aya Awwad, investigadora do Mass General Hospital, em Boston, em resposta ao estudo.
Outra grande limitação reside no facto de não se ter realizado o teste em modelos de IA mais do que uma vez ao longo do tempo, para medir a forma como a função cognitiva muda.
Segundo os críticos, Aaron Sterling, diretor-executivo da EMR Data Cloud, e Roxana Daneshjou, professora assistente de ciências biomédicas em Stanford, em resposta ao estudo, testar modelos após atualizações significativas seria mais pertinente e alinhar-se-ia melhor com a hipótese do estudo.
Em resposta à discussão, o autor principal do estudo, Roy Dayan, médico no Hadassah Medica Center, em Jerusalém, comentou que muitas das respostas ao estudo tomaram o enquadramento demasiado à letra.
Esperávamos lançar um olhar crítico sobre a investigação recente na intersecção entre a medicina e a IA, algumas das quais colocam os LLM como substitutos de pleno direito dos médicos humanos.
Escreveu Dayan, em resposta às críticas, dizendo que "ao administrarmos os testes padrão utilizados para avaliar as deficiências cognitivas humanas, tentámos identificar as diferenças entre a cognição humana e a forma como os LLM processam e respondem à informação".
Foi por isso, também, que os interrogámos como faríamos com os seres humanos, e não através de "técnicas de prompting de última geração", como sugere a Dra. Awwad.
Desculpem mas bloquei em MoCA e não, não vou fazer o trocadilho fácil de dizer que grande “moca” que os tipos que fizeram este estudo tinham. Há siglas que não deveriam ser lembradas por ninguém, mas que as há há
Agora a sério, espero que os modelos que os médicos utilizam nas suas operações assistidas por inteligência artificial, não se baseiem no facto de serem corretamente escritas ou não, ou mesmo nas publicações das redes sociais como as LLM Large Language Models.
Porque, no final de uma operação à vesicula o paciente morrer, for entregue à família o seguinte diagnóstico: “O seu familiar lamentavelmente faleceu. Não sabemos qual a razão que motivou o seu óbito, mas sabemos que durante toda a sua vida se pautou pelo excelente relacionamento que tinha com os outros, a extraordinária empatia que tinha nos seus relacionamentos nas redes sociais e na sua vida familiar. Decerto que merece o céu e Deus não se vai esquecer dos seus atos de altruísmo”.
Partindo do principio que as IAs para já são estáticas, a não ser que sejam retiradas para fazer novo treinamento ou finetuning, a deterioração só se for do hardware de inferência. Ou problema é a memoria das IA ainda estar na sua infância. A maior parte dos modelos mostra deterioração de performance em contextos longos, acima de 8K tokens- algo que já existem estudos para melhorar a memoria das LLM para algo mais semelhante á nossa memoria de curta e longa duração ( humana) . Outro problema é que estas grandes empresas, á medida que vão lançando novos modelos começam a canibalizar o hardware onde estão os modelos mais antigos, não há almoços de graça nem dinheiro que chegue 🙂
Estão como eu, portanto.
Como os humanos só sabem criar, seja o que for, à sua imagem nada mais natural que os constrangimentos da idade tenham sido reproduzidos na IA. Mesmo que os criadores não estivessem com MoCA nenhuma acabaram por transmitir o Alzheimer.
Claro que isto ia acontecer, ninguém lhes lava os dentes
Devem beber 12 diet cokes por dia como o outro!
Eu espero é que tenham em conta o princípio básico de utilizar como fonte de dados os diagnósticos médicos especializados e não os dados recolhidos das redes sociais, isso é da mais elementar lógica.
Eu trabalhei durante vários anos em ETL (Extract, Transform and Load), para quem não sabe é o pré tratamento dos dados que vão alimentar os grandes sistemas de dados (Big Lake of Data), sendo esta uma das áreas mais criticas para que os LLM Large Language Models sejam possíveis.
Em certos modelos a qualidade dos dados é tão ou mais importante que a dimensão das amostras. Se com as amostras de grande dimensão procuras a universalidade com a qualidade buscas a objetividade e confiabilidade dos dados de acordo com o universo que vais tratar.
Quem já trabalhou no ramo sabe a especificidade e o trabalho que dá para garantir que os dados são os mais corretos para o fim a que se destinam, daí que seja a área que mais recursos consome, tanto humanos como tecnológicos.
Um dos princípios é que não se deve misturar “universos” ou “amostras”. Se o modelo é destinado à prática de medicina, então a tua fonte de dados deve ter obrigatoriamente origem em documentos certificados de entidades credenciadas na área da medicina e farmacêutica.
Se pelo contrário o modelo é para marketing direcionado a massas, então os dados podem ser o mais universais possíveis, privilegiando a quantidade em vez da qualidade, se possível com ênfase em experiência sensorial e/ou comportamental.
Será sinais de demência ou alzheimer?
Coitados, ainda são tão novinhos…
o que tu queres dizer é demêncIA e alzhAImer