Por que razão a inteligência artificial ainda falha tanto na leitura de PDF?

01 Mar 2026 · Inteligência Artificial 7 Comentários

Apesar de conseguirem resolver algoritmos complexos e gerar código de programação, os modelos de inteligência artificial (IA) continuam a enfrentar dificuldades inesperadas ao processar ficheiros PDF. Por que razão é que isto acontece?

A contradição tecnológica da IA

É uma experiência comum para muitos utilizadores: ao carregar um PDF num chatbot como o ChatGPT ou o Gemini, a expectativa é obter um resumo impecável ou a extração precisa de dados. No entanto, o resultado é, por vezes, uma confusão de colunas trocadas, notas de rodapé inseridas no meio do corpo de texto ou tabelas que se tornam blocos de caracteres ilegíveis.

Existe uma clara contradição entre a capacidade destas ferramentas para dominar a matemática avançada e a sua incapacidade de interpretar um formato de ficheiro que utilizamos diariamente há décadas.

Para um ser humano, um PDF é um documento organizado com parágrafos e títulos claros. Contudo, para um sistema informático, a realidade é muito distinta. O PDF foi concebido, acima de tudo, como uma descrição visual de como uma página deve ser apresentada no ecrã ou no papel.

Quando uma IA tenta ler este ficheiro, não encontra necessariamente uma estrutura lógica e sequencial, mas sim um conjunto de coordenadas geográficas e instruções gráficas. Antes de conseguir formular uma resposta coerente, o sistema precisa de reconstruir mentalmente o "esqueleto" do documento, um processo que nem sempre é bem-sucedido.

A ausência de estrutura semântica no PDF face ao HTML

Ao contrário de uma página web, onde o código HTML define explicitamente o que é um título, um parágrafo ou uma célula de uma tabela, o PDF armazena o texto como fragmentos isolados. Estes pedaços de informação estão posicionados em pontos específicos da página, mas não possuem uma relação hierárquica intrínseca entre si.

Isto significa que a ordem pela qual o texto é extraído pode não corresponder à ordem de leitura lógica. Se o ficheiro contiver múltiplas colunas ou elementos gráficos sobrepostos, a IA é obrigada a deduzir como essas peças encaixam, o que frequentemente resulta em erros de interpretação semântica.

Perante esta dificuldade, o recurso ao reconhecimento ótico de caracteres (OCR) parece ser a solução óbvia. Esta tecnologia, utilizada há muito tempo para converter imagens em texto, consegue identificar letras e palavras com precisão.

Contudo, reconhecer caracteres é muito diferente de compreender a hierarquia de um documento. Mesmo que a máquina identifique todas as palavras numa página, ela pode não saber se uma determinada frase pertence a um parágrafo principal ou a uma legenda lateral. O problema, portanto, não reside na leitura das letras, mas sim na incapacidade de organizar a informação de forma contextualizada.

Leia também:

Trump ordena às agências dos EUA que “cessem imediatamente” o uso da IA da Anthropic

Acompanhe o Pplware no Google Notícias

Propor Revisão Proponha uma correção, faça uma sugestão

Autor: Rui Neto

Tags: IA pdf

Comentários7

Mico.se says:

1 de Março de 2026 às 11:25

Por isso é apenas uma… IA.

Responder
André R. says:

1 de Março de 2026 às 11:47

Por acaso no Gemini, pedi que ele analisasse um esquema eletrónico em pdf e ele acertou tudo, incluindo um erro que tinha. O texto dos componentes foi lido sem problema e a lógica do circuito bateu certo para ele. O projeto é um osciloscópio, e inclusive conseguiu perceber quantos canais tinha e onde se situavam.
Talvez essa parte do erro de leitura em pdf seja apenas na organização e lógica do texto.

Responder
Jac says:

1 de Março de 2026 às 17:09

Porque de inteligente não tem nada. Pura programaçao e muita capacidade de processamento. Vai armazenando informação que depois vai buscar quando solicitada.
Apenas isso mas continuemos a tratar-la por IA

Responder
- Max says:
  
  1 de Março de 2026 às 20:27
  
  Faz assim, pergunta ao Gemini: Qual é a diferença entre programar uma IA e um programa informático normal.
  Vai começar pelo exemplo da maçã. Na programação tradicional, se quiseres que uma aplicação reconheça uma maçã vais ter que lhe dar uma série de parâmetros, como redonda e vermelha. Mas se for verde ou estiver cortada não a vai reconhecer. Com uma IA (treinada com Machine Learning), mostra-se-lhe 10.000 fotos de maçãs e 10.000 fotos que não são maçãs e a IA aprende o que é uma maçã.
  Chama-se IA a essa capacidade de descobrir por conta própria. Algum nome se tinha que dar. Se lhe chamassem inteligência natural é que seria estranho.
  
  Responder
  - Jac says:
    
    2 de Março de 2026 às 12:57
    
    É isso tudo
    
    Responder
Artilheiro says:

1 de Março de 2026 às 21:55

Ainda vamos ter um modelo, focado nos PDF’s.

Responder
Zé says:

2 de Março de 2026 às 17:58

O problema é que PDF ao contrário….

Responder

Deixe um comentário Cancelar Resposta

Aviso: Todo e qualquer texto publicado na internet através deste sistema não reflete, necessariamente, a opinião deste site ou do(s) seu(s) autor(es). Os comentários publicados através deste sistema são de exclusiva e integral responsabilidade e autoria dos leitores que dele fizerem uso. A administração deste site reserva-se, desde já, no direito de excluir comentários e textos que julgar ofensivos, difamatórios, caluniosos, preconceituosos ou de alguma forma prejudiciais a terceiros. Textos de caráter promocional ou inseridos no sistema sem a devida identificação do seu autor (nome completo e endereço válido de email) também poderão ser excluídos.