如何使用alfresco和tesseact将tiff转换为可搜索的pdf?

时间:2014-12-31 07:54:49

标签: integration ocr alfresco tesseract alfresco-share

我想使用alfresco和tesseract OCR将* .PDF文件转换为可搜索的* .PDF文件。

tesseract版本3.03需要编译,我需要使用源代码生成它的设置。是否有任何其他解决方案相同。 任何人都可以帮忙吗?

2 个答案:

答案 0 :(得分:4)

您需要Tesseract 3.03或更高版本才能获得可搜索的PDF输出功能。

tesseract yourimage.tif out pdf

答案 1 :(得分:2)

您可以使用另一个直接执行pdf的工具来搜索pdf转换。此工具在内部使用tesseract进行此转换。您可以在下方链接中找到更多详细信息,并为露天配置相同的内容。

http://ubuntuforums.org/showthread.php?t=1456756

命令

pdfocr -i input.pdf -o output.pdf