para converter um documento pdf em tiff para poder ser utilizado pelo tesseract:
gs -sDEVICE=tiffg4 -r300x300 -sOutputFile=output.tif -- input.pdf
http://www.linuxquestions.org/questions/linux-software-2/convert-pdf-to…

para realizar o ocr:
tesseract input.tif output -l por

http://www.groklaw.net/articlebasic.php?story=20061210115516438
http://www.cyberciti.biz/faq/howto-convert-a-pdf-file-to-an-image/
http://profs.if.uff.br/tjpp/blog/entradas/ocr-de-qualidade-no-linux

Tags