Google Docs com OCR para PDF’s e imagens
A equipa responsável pelo Google Docs voltou a surpreender os seus utilizadores com a apresentação de mais uma funcionalidade que de certeza vai fazer as delícias de muitos. Têm sido tempos de muita agitação positiva para aqueles lados e muito frequentemente têm sido apresentadas funcionalidades novas e que os utilizadores esperavam à muito. Todas estas novidades são fruto da implementação do Google Docs em HTML5 e das potencialidades que este oferece.
A funcionalidade agora apresentada permite que carreguemos imagens e PDF's e que os textos neles contidos sejam convertidos para texto editável. Finalmente existe um mecanismo de OCR no Google Docs.
Esta funcionalidade não era nova para todos aqueles utilizadores que gostam de testar as ferramentas antes de elas se tornarem públicas. Esteve desde Setembro do ano passado disponível na forma de uma API e que permitia submetermos uma imagem e era-nos devolvido o texto nela contida.
Pois essa API foi agora incorporada como uma funcionalidade disponível na zona de carregamento de ficheiros do Google Docs.
Para podermos utilizar esta funcionalidade basta que antes de carregarmos um ficheiro seleccionemos a opção "Converter texto de ficheiros PDF ou de imagem para documentos do Google Docs".
Após o carregamento ficheiro (imagem ou PDF) é criado um novo documento e o texto que estava contido passa a estar disponível para edição.
Naturalmente que este OCR não é perfeito, mas os valores de interpretação que apresenta rondam os 100%. Os principais problemas começam a surgir com formatações mais estranhas (colunas de texto e outras similares), mas na maioria dos casos o texto é convertido. Não aparece no local exacto, mas está lá.
Cada novo documento criado desta forma tem no seu início uma tabela (a amarelo) a indicar que o texto gerado é proveniente de um OCR e como tal pode não estar completo e que a formatação foi perdida. Essa tabela é facilmente removida.
Após estes passos todos resta-nos então verificar a qualidade do texto e adicionar palavras que eventualmente tenham escapado ao sistema de OCR da Google.
É sem dúvida mais uma grande valia para o Google Docs e certamente que será uma ajuda preciosa para todos os utilizadores desta plataforma. Testem e digam de vossa justiça.
Homepage: Google Docs
Este artigo tem mais de um ano
Santo google… Podem querer controlar-nos até o tutano… mas pelo menos estão sempre a oferecer ferramentas novas e de graça 🙂
Cumps
Isto é óptimo!!!
Nunca escondi ser google dependente.
Tenho 90% do meu material de trabalho e pessoal na nuvem google. E parece que a dependência só vai aumentar.
Se ao menos conseguisse um telemóvel com SO nexus bonzinho (i.e. 1GHZ). É que cá não encontro nada de jeito à venda nas lojas.
José Simões
Mais um brinquedo que me vai dar muito jeito.
😀
Boa iniciativa.
Resultado desastroso num pdf que precisava de converter. Nem sequer reconheceu o texto, mas apenas os títulos (e mal).
De facto,
Resultado péssimo. Até parece mal o Google lançar isto a funcionar assim.
E era um pdf bastante simples.
Google sempre em ascensão.. Incrível essa companhia!!
Uns 10 dias atrás tive que traduzir do inglês para português um texto de 15 páginas, salvo como imagem em um arquivo pdf (maldade de um professor!!!).
Utilizei o https://www.ocrterminal.com/
É um serviço pago, mas permite a conversão e tradução gratuita de até 20 páginas por mês (infelizmente não traduz para português, mas isto foi bem mais fácil). O arquivo PDF é convertido para Word, traduzido e mesmo que o original seja uma imagem, tudo online, uma barbada….
Agora testei o mesmo texto com o google docs, mas ele teve um desempenho muito pior do que o OCR Terminal. Completamente fora de formato, além de não reconhecer muitas palavras que o OCR havia convertido.
Ainda recomendo o OCR para quem tiver que converter até 20 páginas.
Eu acho a iniciativa do google uma coisa excelente, pois ela estimula uma maior competitividade em relação as outras empresas que apresentam conteúdos parecidos(Microsoft entre outras).
Pode não ser perfeito o “OCR” mais tem muito a acrescentar em termos de competitividade e abrangência de mercado!!
Aqui funcionou de forma perfeita. Um pdf com 16 páginas correctamente convertido. Sem espinhas.
@Hrenechen. Uma ajuda, não escrevas “mais” quando queres escrever “mas”. Eu sei que é um erro recorrente, junto da população brasileira, que não diz mas e diz mais,e depois obviamente escreve mal.
Só estou a tentar ajudar, mais nada.
cara chato meu….esse professor Xavier Orkall tem que aprender regras de etiqueta.
<<>>>
não gostei do “,junto a população brasileira,” enfatizado entre vírgulas. E depois diz “que obviamente escreve mal”…
Fostes pejorativo, além de mal educado. Pede desculpas pro Hrenechen agora mesmo seu bobo!!!!
Lol. Desculpa Hrenechen, por ter tentado ajudar-te a escreveres e falar melhor Português.