我指的是" https://github.com/keensoft/alfresco-simple-ocr"在tiff和jpeg文件上执行OCR,但是说"无法找到预告片词典","无法读取外部参照表","异常失败("错误:pdfinfo无法确定页数。检查pdf输入文件。\ n")"虽然从jpeg或tiff文件到PDF文件的转换工作正常,但PDF文件在露天共享页面上可见"但没有OCR正在处理那些tiff和jpeg文件
答案 0 :(得分:1)
基本上有很多工具用于在pdf文件上执行OCR。它也取决于工具。露天有一个漏洞。这是一个库问题。下面是详细信息。
创建名为transformation.sh的文件,在添加命令之前,必须在其中添加以下行。如果您使用的是Windows,则需要相应地创建批处理文件。
取消设置LD_LIBRARY_PATH
如果您未在脚本文件中设置上述内容,则会在会话时遇到错误。您可以在alfresco的下方链接中找到该错误详细信息。这是在alfresco注册的问题。
https://issues.alfresco.com/jira/browse/ALF-19946
PDF到PDF会话在下面的链接中有很好的解释。
http://www.krutikjayswal.com/2016/07/ocr-on-pdf-file-in-alfresco.html
您可能需要更改tiff会话的源代码。