O mundo digital, a cada dia que passa, ocupa mais espaço nas nossas vidas. Exemplo disso é a forma de lidarmos com os documentos que nos servem em muitos serviços e até na nossa profissão. A forma tradicional de lidarmos com esses documentos está paulatinamente a perder terreno. Um texto numa folha de papel é hoje um entrave para muita gente, tendo em conta que enviar um fax – que em tempos atalhava os processos burocráticos – está em desuso e pode dificultar mesmo os serviços administrativos. É a era digital que nos obriga a usar a web e o mail como principais meios de comunicação.
Mas então o que fazemos às resmas de papel que ainda circulam na nossa mesa de trabalho?
A ideia é digitalizar… ou melhor, “fotografar” e converter o texto do papel em texto “editável”. Podemos para isso usar um OCR.
OCR – Reconhecimento Óptico de Caracteres
A técnica de reconhecimento de caracteres facilita o transporte do texto e das imagens do papel para o editor de texto. Existem várias aplicações que podemos usar, falei aqui numa aplicação extraordinária, para este serviço, o Abbyy FineReader. Mas é pago e bem pago… no entanto vale cada euro gasto.
Claro que nem todos precisam de uma ferramentas destas todos os dias. Existem aplicações gratuitas e existem serviços onde podemos fazer esta conversão.
Hoje deixo-vos três interessantes serviços online que podem usar para a conversão.
Free OCR
Este serviço é bastante rápido e eficaz. É um serviço gratuito online de OCR (Reconhecimento Óptico de Caracteres). Com ele pode extrair o texto a partir de qualquer imagem que forneça. Sem registos necessários nem colocação de qualquer email, basta enviar os seus ficheiros em formato imagem. Free-OCR retirar o texto de um JPG, GIF, BMP TIFF ou PDF (somente da primeira página).
A única restrição é que as imagens não devem ser maiores do que 2MB, não superiores a 5000 pixels e há um limite de 10 uploads de imagens por hora.
Free-OCR pode manipular imagens com texto multi-coluna e também suporta vários idiomas: búlgaro, catalão, checo, dinamarquês, holandês, Inglês, finlandês, francês, alemão, grego, húngaro, indonésio, italiano, letão, lituano, norueguês, polaco , português, romeno, russo, sérvio, eslovaco, esloveno, espanhol, sueco, filipino, turco, ucraniano e vietnamita.
OCR Terminal
OCR Terminal é um serviço online OCR que permite converter PDF para Word e imagens JPEG para documentos Word. Uma das suas características relevantes prende-se pela disciplina na formatação, este retém exatamente a formatação e layout dos ficheiros originais. Exporta para Word, PDF, TXT e RTF.
Neste caso já necessita de se registar e para usar o serviço gratuito tem uma limitação de 20 páginas por mês.
Google Docs OCR
Google Docs API permite executar o OCR (reconhecimento óptico de caracteres) numa imagem. Há uma demonstração ao vivo, que ilustra esta característica: o utilizador pode carregar uma imagem em alta resolução, nos formatos JPG, GIF ou PNG. Essa imagem deverá ter menos de 10 MB e o texto é extraído no Google Docs, convertendo a imagem num novo documento. A Google refere que “actualmente a operação pode levar até 40 segundos” e um pequeno teste revelou que o serviço ainda não é confiável: é lento e frequentemente apresenta erros. Mas, conhecendo a Google como conhecemos, podemos muito em breve ler um excelente serviço completamente integrado com a suite de produção.
Por hoje fico-me por aqui. Estes serviços gratuitos online já aumentam de sobremaneira as opções para transformar uma folha de papel escrito em texto “editável”. Bom proveito.