FreeOCR – Digitalize documentos de forma simples
A capacidade que o OCR tem de converter imagens em texto é algo que sempre agradou à maioria dos utilizadores de PC's. Facilmente pegamos numa página de texto, colocamos num scanner e, através da utilização de softwares específicos, conseguimos colocar todo o texto da imagem acessível para o colocarmos em qualquer editor de texto ou noutra qualquer aplicação onde o vamos tratar.
Tipicamente os softwares de OCR são proprietários e têm custos elevados ou necessitam de hardware específico. O FreeOCR resolve o problema dos utilizadores ao apresentar uma solução boa e a custo zero.
O FreeOCR faz uso do motor Tesseract, inicialmente desenvolvido pelos laboratórios da Hewlett Packard e actualmente mantido pela Google, para as suas capacidades de OCR. Este motor ganhou já bastantes prémios ao longo da sua "vida" e esteve inclusive entre os 3 melhores da sua categoria.
Este software permite que transformem texto contido em imagens (uma grande variedade de formatos), PDF's ou recolhidos directamente de um scanner em texto utilizável no vosso PC e que podem posteriormente editar e trabalhar.
A facilidade de utilização do FreeOCR é grande. Basta que importem a vossa fonte de texto e que carreguem no botão OCR. Na zona esquerda do software é apresentada uma imagem da vossa fonte e do lado direito o texto convertido.
Dos testes que efectuámos concluímos que esta ferramenta está à altura do que lhe é exigido. Consegue converter sem problemas texto que fica utilizável prontamente. Mas tal como muitas outras ferramentas tem problemas na hora de converter os fins de linha e os caracteres acentuados. Nada de muito crítico, mas que requer alguma atenção de quem utiliza a ferramenta.
Esta versão vem equipada com language pack Inglês, mas podem facilmente adicionar o nosso idioma. Basta que o descarreguem no link fornecido abaixo e que acedam a Settings -> Open Language Folder. Copiem o conteúdo do ficheiro comprimido para a janela que se abrir, reiniciem o FreeOCR e escolham depois o novo idioma pretendido.
Utilizem o FreeOCR nas situações em que têm de converter imagens ou outras fontes em texto editável. É uma ferramenta que é capaz de vos ajudar e evitar horas passadas a transcrever texto de páginas infindáveis.
Notem que o instalador disponibilizado requer que durante a instalação seja descarregado o software. Necessitam por isso de uma ligação à Internet durante a instalação. É ainda requerido que tenham no vosso PC a versão 2.0 (ou superior) do .Net Framework.
Artigos relacionados:
Licença: Freeware
Sistemas Operativos: Windows 2K/ 2003/ XP/ Vista/ 7
Download: FreeOCR 3.0 [156.01KB]
Download: Pack idioma PT [2.0MB]
Homepage: Paperfile
Este artigo tem mais de um ano
Se funcionar bem vai ser uma grande mais valia.
Boa dica!
Concordo contigo.
Eu utilizo o TopOCR, também gratuito e muito simples, vou experimentar o FreeOCR.
Depois manda o teu feedback.
Será que esse software funciona com uma multifuncional em rede, com um IP próprio ?
Desde que o teu PC a detecte e consiga fazer dela um scanner não vejo razão para não funcionar.
Testado e aprovado, obrigado pela dica
Olá!
Tenho um problema com o idioma Português.
Fiz o download do ficheiro “tesseract-2.01.por.tar.gz”, usei o 7-Zip, copiei o ficheiro “tesseract-2.01.por.tar” para a janela do FreeOCR, reiniciei o programa e quando vou escolher o novo idioma aparecem as alternativas “eng” e “tes” e não o pretendido “por”.
O que é que fiz de errado?
Help me, please!
Faltou-te descomprimir o ficheiro na totalidade. Para além da compressão gz deves também extrair a compressão tar!
Passa o ficheiro tesseract-2.01.por.tar pelo 7Zip também.
No final deves ficar apenas com a pasta tessdata e com os respectivos ficheiros lá dentro. São esses que deves colocar dentro da janela do FreeOCR.
quando no momento do programa OCR, no menu settings quero escolher o meu idioma, português e também não apareceu a lingua, aparece vários ficheiros por.___ mas não com a terminação trained data Qual devo escolher?
Muito obrigado
Existe algum programa desse género para Linux?
Tem o próprio tesseract-ocr-por nos repositórios Debian e derivados. Provavelmente tem também nas demais.
O Simple Scan do GNOME ou Skanlite do KDE dão suporte a OCR.
O xsane também. Todos são estendidos se o tesseract está instalado. Basta depois configurar cada programa, pode haver vários programas OCR instalados como o GOCR entre outros.
Eu possuo uma multifunções da HP e uso o OCR dessa marca que é excelente. Consigo fazer o reconhecimento das páginas de uma revista e manter a formatação original, incluindo as imagens. Já tive uma multifunções da Epson e nem OCR possuía. A HP trás software de luxo. Esses gajos deviam pagar-me para estar a fazer propaganda!
Actualmente, até uso mais o smartphone com Android para digitalizar, é mais rápido…
Muito bom, obriga a que exista uma ligaçao a internet para instalar.
Sempre gostei de software assim. Ou digo que sim na firewall ou diz uma estupidez do genero “File has been altered externaly”.
Valeu pela dica, rapaz. Muito obrigado.