Por que razão a inteligência artificial ainda falha tanto na leitura de PDF?
Apesar de conseguirem resolver algoritmos complexos e gerar código de programação, os modelos de inteligência artificial (IA) continuam a enfrentar dificuldades inesperadas ao processar ficheiros PDF. Por que razão é que isto acontece?
A contradição tecnológica da IA
É uma experiência comum para muitos utilizadores: ao carregar um PDF num chatbot como o ChatGPT ou o Gemini, a expectativa é obter um resumo impecável ou a extração precisa de dados. No entanto, o resultado é, por vezes, uma confusão de colunas trocadas, notas de rodapé inseridas no meio do corpo de texto ou tabelas que se tornam blocos de caracteres ilegíveis.
Existe uma clara contradição entre a capacidade destas ferramentas para dominar a matemática avançada e a sua incapacidade de interpretar um formato de ficheiro que utilizamos diariamente há décadas.
Para um ser humano, um PDF é um documento organizado com parágrafos e títulos claros. Contudo, para um sistema informático, a realidade é muito distinta. O PDF foi concebido, acima de tudo, como uma descrição visual de como uma página deve ser apresentada no ecrã ou no papel.
Quando uma IA tenta ler este ficheiro, não encontra necessariamente uma estrutura lógica e sequencial, mas sim um conjunto de coordenadas geográficas e instruções gráficas. Antes de conseguir formular uma resposta coerente, o sistema precisa de reconstruir mentalmente o "esqueleto" do documento, um processo que nem sempre é bem-sucedido.
A ausência de estrutura semântica no PDF face ao HTML
Ao contrário de uma página web, onde o código HTML define explicitamente o que é um título, um parágrafo ou uma célula de uma tabela, o PDF armazena o texto como fragmentos isolados. Estes pedaços de informação estão posicionados em pontos específicos da página, mas não possuem uma relação hierárquica intrínseca entre si.
Isto significa que a ordem pela qual o texto é extraído pode não corresponder à ordem de leitura lógica. Se o ficheiro contiver múltiplas colunas ou elementos gráficos sobrepostos, a IA é obrigada a deduzir como essas peças encaixam, o que frequentemente resulta em erros de interpretação semântica.
Perante esta dificuldade, o recurso ao reconhecimento ótico de caracteres (OCR) parece ser a solução óbvia. Esta tecnologia, utilizada há muito tempo para converter imagens em texto, consegue identificar letras e palavras com precisão.
Contudo, reconhecer caracteres é muito diferente de compreender a hierarquia de um documento. Mesmo que a máquina identifique todas as palavras numa página, ela pode não saber se uma determinada frase pertence a um parágrafo principal ou a uma legenda lateral. O problema, portanto, não reside na leitura das letras, mas sim na incapacidade de organizar a informação de forma contextualizada.
Leia também:





















Por isso é apenas uma… IA.
Por acaso no Gemini, pedi que ele analisasse um esquema eletrónico em pdf e ele acertou tudo, incluindo um erro que tinha. O texto dos componentes foi lido sem problema e a lógica do circuito bateu certo para ele. O projeto é um osciloscópio, e inclusive conseguiu perceber quantos canais tinha e onde se situavam.
Talvez essa parte do erro de leitura em pdf seja apenas na organização e lógica do texto.
Porque de inteligente não tem nada. Pura programaçao e muita capacidade de processamento. Vai armazenando informação que depois vai buscar quando solicitada.
Apenas isso mas continuemos a tratar-la por IA
Faz assim, pergunta ao Gemini: Qual é a diferença entre programar uma IA e um programa informático normal.
Vai começar pelo exemplo da maçã. Na programação tradicional, se quiseres que uma aplicação reconheça uma maçã vais ter que lhe dar uma série de parâmetros, como redonda e vermelha. Mas se for verde ou estiver cortada não a vai reconhecer. Com uma IA (treinada com Machine Learning), mostra-se-lhe 10.000 fotos de maçãs e 10.000 fotos que não são maçãs e a IA aprende o que é uma maçã.
Chama-se IA a essa capacidade de descobrir por conta própria. Algum nome se tinha que dar. Se lhe chamassem inteligência natural é que seria estranho.
É isso tudo
Ainda vamos ter um modelo, focado nos PDF’s.
O problema é que PDF ao contrário….