Question

我想使用alfresco和tesseract OCR将* .PDF文件转换为可搜索的* .PDF文件。

tesseract版本3.03需要编译，我需要使用源代码生成它的设置。是否有任何其他解决方案相同。任何人都可以帮忙吗？

Answer 1

您需要Tesseract 3.03或更高版本才能获得可搜索的PDF输出功能。

tesseract yourimage.tif out pdf

Answer 2

您可以使用另一个直接执行pdf的工具来搜索pdf转换。此工具在内部使用tesseract进行此转换。您可以在下方链接中找到更多详细信息，并为露天配置相同的内容。

命令

pdfocr -i input.pdf -o output.pdf