Converta uma imagem de texto em texto “editável”
O mundo digital, a cada dia que passa, ocupa mais espaço nas nossas vidas. Exemplo disso é a forma de lidarmos com os documentos que nos servem em muitos serviços e até na nossa profissão. A forma tradicional de lidarmos com esses documentos está paulatinamente a perder terreno. Um texto numa folha de papel é hoje um entrave para muita gente, tendo em conta que enviar um fax - que em tempos atalhava os processos burocráticos - está em desuso e pode dificultar mesmo os serviços administrativos. É a era digital que nos obriga a usar a web e o mail como principais meios de comunicação.
Mas então o que fazemos às resmas de papel que ainda circulam na nossa mesa de trabalho?
A ideia é digitalizar... ou melhor, "fotografar" e converter o texto do papel em texto "editável". Podemos para isso usar um OCR.
OCR - Reconhecimento Óptico de Caracteres
A técnica de reconhecimento de caracteres facilita o transporte do texto e das imagens do papel para o editor de texto. Existem várias aplicações que podemos usar, falei aqui numa aplicação extraordinária, para este serviço, o Abbyy FineReader. Mas é pago e bem pago... no entanto vale cada euro gasto.
Claro que nem todos precisam de uma ferramentas destas todos os dias. Existem aplicações gratuitas e existem serviços onde podemos fazer esta conversão.
Hoje deixo-vos três interessantes serviços online que podem usar para a conversão.
Free OCR
Este serviço é bastante rápido e eficaz. É um serviço gratuito online de OCR (Reconhecimento Óptico de Caracteres). Com ele pode extrair o texto a partir de qualquer imagem que forneça. Sem registos necessários nem colocação de qualquer email, basta enviar os seus ficheiros em formato imagem. Free-OCR retirar o texto de um JPG, GIF, BMP TIFF ou PDF (somente da primeira página).
A única restrição é que as imagens não devem ser maiores do que 2MB, não superiores a 5000 pixels e há um limite de 10 uploads de imagens por hora.
Free-OCR pode manipular imagens com texto multi-coluna e também suporta vários idiomas: búlgaro, catalão, checo, dinamarquês, holandês, Inglês, finlandês, francês, alemão, grego, húngaro, indonésio, italiano, letão, lituano, norueguês, polaco , português, romeno, russo, sérvio, eslovaco, esloveno, espanhol, sueco, filipino, turco, ucraniano e vietnamita.
OCR Terminal
OCR Terminal é um serviço online OCR que permite converter PDF para Word e imagens JPEG para documentos Word. Uma das suas características relevantes prende-se pela disciplina na formatação, este retém exatamente a formatação e layout dos ficheiros originais. Exporta para Word, PDF, TXT e RTF.
Neste caso já necessita de se registar e para usar o serviço gratuito tem uma limitação de 20 páginas por mês.
Google Docs OCR
Google Docs API permite executar o OCR (reconhecimento óptico de caracteres) numa imagem. Há uma demonstração ao vivo, que ilustra esta característica: o utilizador pode carregar uma imagem em alta resolução, nos formatos JPG, GIF ou PNG. Essa imagem deverá ter menos de 10 MB e o texto é extraído no Google Docs, convertendo a imagem num novo documento. A Google refere que "actualmente a operação pode levar até 40 segundos" e um pequeno teste revelou que o serviço ainda não é confiável: é lento e frequentemente apresenta erros. Mas, conhecendo a Google como conhecemos, podemos muito em breve ler um excelente serviço completamente integrado com a suite de produção.
Por hoje fico-me por aqui. Estes serviços gratuitos online já aumentam de sobremaneira as opções para transformar uma folha de papel escrito em texto "editável". Bom proveito.
Artigos relacionados:
Este artigo tem mais de um ano
Obrigado pela dica. Vou já testar.
Ainda na semana passada estive à procura de um programa para computador que convertesse o texto duma folha que eu tirei fotografia para texto digitale aparece agora um artigo no pplware sobre isto…
Na minha pesquisa, acabei por encontrar o Free OCR. É bem rápido e não dá assim muitos erros
Boas, gostava de saber se alguém sabe de um ocr freeware ou open source, mas directo sem ter de passar para imagem nem sem ser preciso internet, isso é que era 😀
É sempre preciso passar para imagem (quer tu vejas o ficheiro final, quer nãoi vejas), mas o ficheiro do scan tem que ser feito.
Por acaso até há programas que fazem a conversão directa sem passar por imagem.
O abby tem 1 ferramenta dessas.
Na me recordo do nome das outras apps, qd vir isso faço 1 post.
um programa de dá mt jeito. comprei uma impressora a uns tempo e so agora descobri que o sotfware fazia reconhecimento. obrigado
Tenho uma impressora da brother e uso o software que veio incluído que tem ocr, penso que a maioria do pessoal deve ter e não usa.
Sim isso é verdade, muitas das marcas já incluem software OCR no pack que vem com o equipamento.
Eu uso este.
http://home.megapass.co.kr/~woosjung/Product_JOCR.html
http://home.megapass.co.kr/~woosjung/Index_Download.html
eu ando a aprimorar o que está no Codeproject aqui para umas coisas do trabalho muito especificas.
Boas,
E para converter um PDF com cerca de 200 páginas em Excel ou Word? Alguem conhece um software que faça esse serviço?
smallpdf, um excelente programa.
“Free-OCR pode manipular imagens com texto multi-coluna” como assim? eu tentei meter lá uma imagem com dois textos em coluna, e aquilo não reconheceu praticamente nada.
“Mas, conhecendo a Gppgle como conhecemos,…”
O OCR da Google não reconheceu estes caracteres ehehe…
Agora mais a sério:
Dá um jeitão saber destes OCR grátis. Já utilizei o ABBY e, de facto, torna-se caro para quem apenas precisa dele pontualmente.
O FreeOCR já me deixou pendurado algumas vezes.
Vou testar estes… a ver o que dá.
muito útil, muito bom post, vou testar quando chegar do trabalho
Eu já usei o Omnipage e também era muito bom. Mas algo que a Microsoft nos ofereceu nas ferramentas no Office 2003, agora no 2007 desapareceu. Havia também um utilitário OCR mediano e eficaz para ser usado instantaneamente.
Não sei porque o tiraram mas que dava jeito dava.
Sim em tempos experimetei o Omnipage, muito bom sim senhor, inclinei mais para o Abbyy mas sim o Omnipage também está no topo.
A HP, já no ano de 2004 trazia algo idêntico. o software de instalação de drivers trazia um pequeno utilitário que fazia isto mesmo. escusado será dizer que ferramentas como esta são bastante úteis 😀
Valeu pela dica. Já conhecia o ABBYY mas o seu preço…
Verdade. O preço é que não abona… a não ser numa empresa com um bom equipamento para indexar esse material.
Quando mudei para linux umas das pechas era não haver nenhum OCR que p+elo menos para português funcionasse decentemente. Na altura tb tentei coisas online e não fiquei satisfeito. Pelo visto a coisa mudou. Cada vez a cloud mais em força. 🙂
Então e os pdf já não são seguros agora…? Quer dizer com este tipo de programas facilmente se copia e altera e volta a passar para pdf…digo eu :\
Agora? Desde quando é que não se pode alterar um PDF? 😀
então com o foxit ou mesmo outro já tens a ferramenta de copiar texto. isso de alterar os pdf já dava à muito como diz o Victor.
Para passar de PDF para Word existe o SolidWorks Tolls.
Muito bom desempenho, mas não é free.
Para pequenas coisas eu uso o JOCR (http://home.megapass.co.kr/~woosjung/Product_JOCR.html). É muito útil para fazer fazer o OCR de texto que estamos a ver no ecrã uma vez que o JOCR funciona também com “image capture”.
Os nokias da série empresarial e71 e e72 fazem isto para reconhecimento de cartões pessoais 🙂
eu uso um muito bom, já comparei com o ABBY mas este é melhor
Omnipage 17 da Nuance
mas estes online são fixes para quando não se tem o software instalada e para algo rádio
obrigado
ReadIris, em alternativa ao Abby… É o que a HP usa.
Oi pessoal
Não há nada que chegue ao OMNIPAGE 15 ou 16 . É “inteligente” e “memoriza” para sempre as palavras “mudadas”.
Desculpem, mas esqueci que o “bichinho lê” .pdf; pcx; tif; tiff; png… Mesmo quem não tem scanner…. tá a andar!
Converter imagens de jpg para png é atualmente uma das formas mais populares de ajudar as pessoas a trabalhar. A ferramenta atual que uso para converter imagens em png é: https://jpg4png.com/pt/