我想使用alfresco和tesseract OCR将* .PDF文件转换为可搜索的* .PDF文件。
tesseract版本3.03需要编译,我需要使用源代码生成它的设置。是否有任何其他解决方案相同。 任何人都可以帮忙吗?
答案 0 :(得分:4)
您需要Tesseract 3.03或更高版本才能获得可搜索的PDF输出功能。
tesseract yourimage.tif out pdf
答案 1 :(得分:2)
您可以使用另一个直接执行pdf的工具来搜索pdf转换。此工具在内部使用tesseract进行此转换。您可以在下方链接中找到更多详细信息,并为露天配置相同的内容。
http://ubuntuforums.org/showthread.php?t=1456756
命令
pdfocr -i input.pdf -o output.pdf