A presença de inteligência artificial (IA) na redação de trabalhos académicos é uma realidade crescente e que deixa marcas linguísticas que permitem identificar a sua intervenção. Recentemente, investigadores detetaram padrões de escrita específicos que revelam como os modelos de linguagem estão a moldar o vocabulário científico atual.
O estranho fenómeno da palavra "delve" na literatura académica
A evidência de que existem artigos científicos redigidos por IA já não é uma novidade, mas a escala desta prática continua a surpreender. Ao analisarem milhões de resumos de artigos publicados na base de dados PubMed, um grupo de investigadores descobriu uma tendência peculiar: o uso de determinados termos disparou de forma anómala.
O exemplo mais flagrante é a palavra "delve" (que se pode traduzir como "aprofundar"), cuja frequência de utilização multiplicou-se por 28 entre 2022 e 2024. Este período coincide precisamente com a explosão do ChatGPT e de outros Large Language Models (LLM).
Para além de "delve", outras palavras como "underscore" (sublinhar) ou "showcasing" (expondo) registaram aumentos de 13,8 e 10,7 vezes, respetivamente. É importante notar que estes termos não são substantivos técnicos relacionados com as descobertas científicas, mas sim elementos de estilo.
Trata-se de um vocabulário mais formal, que se tornou uma assinatura característica dos LLM. Embora encontrar uma destas palavras num artigo não signifique obrigatoriamente que este foi gerado por uma IA, o crescimento é tão desproporcional que não pode ser ignorado.
Em comparação, termos como "pandemia", que tiveram um pico natural em 2020, apresentam curvas de crescimento muito menos acentuadas do que o uso atual de "delve".
A influência da Nigéria no treino de IA
Este fenómeno tem uma explicação que reside no processo de refinamento dos modelos de IA. Para que um chatbot responda de forma adequada, é submetido a uma fase de Reinforcement Learning from Humand Feedback (RLHF).
Curiosamente, uma grande parte dos trabalhadores responsáveis por este processo de filtragem e correção reside em países africanos, com especial destaque para a Nigéria. Nestas regiões, o inglês formal e de negócios utiliza frequentemente termos como "delve", "leverage" ou "tapestry".
Embora o volume de feedback humano seja reduzido face aos triliões de dados de treino, o seu impacto é decisivo na definição do tom e da personalidade do modelo.
O treino de modelos de linguagem exige uma mão-de-obra intensiva para o labeling de dados, uma tarefa muitas vezes delegada a trabalhadores em países com economias fragilizadas, como a Nigéria, o Quénia ou a Índia. Estes profissionais enfrentam frequentemente condições de trabalho precárias, com salários muito baixos e horários extensos.
Além disso, a natureza do trabalho obriga-os, por vezes, a analisar conteúdos violentos ou perturbadores para ensinar a IA a evitá-los, muitas vezes sem qualquer tipo de acompanhamento psicológico. Esta realidade invisível é, em última análise, o que molda a forma como as máquinas comunicam connosco hoje em dia.
Há mais… Economicamente fazível (que é possível fazer, a nível económico), apareceu em 78%, dos artigos, submetidos para tese, de final de licenciatura, em economia e gestão, numa universidade portuguesa.
Até 2020, era inaudito, de aparecer, fosse em teses, ou trabalhos. Há expressões específicas, para definir isso, no jargão económico. Alunos, quando confrontados, referem que “aproveitaram ferramentas online, para correcção gramatical”.
Mas, mesmo em estudos, que surgem por bolseiros ou entidades (como consultoras financeiras) é expressão que surge, sem qualquer referência, quando é para entoar, algum ponto, que não é referenciável. Um director, já assume que, 100%, aproveitam as ferramentas, para fazer, os trabalhos, alterando frases, mais para remover expressões brasileiras (algo que 98%, dos alunos, com 20-25 anos, já não sabem o que é Português, de Portugal, do que é Português, do Brasil), para evitarem perder pontos, por falhas gramaticais.
E há professores, mais novos, que já lhes acontece, o mesmo, quando precisam de dividir, entre dar aulas, fazer comentários, televisivos e jornalísticos e participar em actividades empresariais. Nos 2 últimos, muito poucos, notam, a utilização de expressões brasileiras, no meio dos discursos. Até os políticos, o andam a fazer, como aconteceu, no Sábado, a André Ventura, que usou uma expressão brasileira, para atacar, os jornalistas.
