Alfresco Transformer - Ubuntu脚本多页PDF到OCR

时间:2012-04-17 13:07:13

标签: imagemagick ocr alfresco tesseract

我在调用脚本进行转换时遇到了问题。我在ubuntu中有一个脚本,在单页pdf文件中分割多页pdf,然后用convert(从imagemagick)将其转换为tif,然后用tesseract ocr生成html,用文本层将其转换回pdf,并合并Everythin回到单个带文本图层的pdf。 脚本在控制台中运行良好,但在Alfresco中,由于路径中的环境变量不同,请使用不同的转换(/opt/alfresco-3.4.d/common/bin/convert)而不是/ usr / bin / convert。结果是pdf 1.3而不是tiff所以tesseract什么都不做。 servlet是tomcat,我试图将/ usr / bin / convert复制到catalina home,并复制到alfresco公共目录,将convert重命名为conv并调用它等,但没有任何反应。

我怎么能告诉Alfresco使用正确的转换而不是他/opt/alfresco-3.4.d/common/bin/convert

由于

0 个答案:

没有答案