与alfresco 5.0.d集成后,Tesseract-ocr无法正常工作

时间:2017-02-20 13:55:56

标签: java ocr alfresco tesseract alfresco-share

我在Alfresco 5.0.d中集成了Tesseract-ocr,我的要求是将PDF文件数据转换为文本格式。

它适用于小型文件。

但如果我要上传更大尺寸的文件,比如超过50 MB,

在这种情况下,它在下面给出Exception,并且整个pdf文件不会被转换为文本文件。 只有一些起始页面被转换为文本格式。

请参阅以下日志

java.net.SocketTimeoutException: Read timed out
    at java.net.SocketInputStream.socketRead0(Native Method)
    at java.net.SocketInputStream.socketRead(SocketInputStream.java:116)
    at java.net.SocketInputStream.read(SocketInputStream.java:170)
    at java.net.SocketInputStream.read(SocketInputStream.java:141)
    at sun.security.ssl.InputRecord.readFully(InputRecord.java:465)
    at sun.security.ssl.InputRecord.read(InputRecord.java:503)

有没有人遇到同样的问题,请帮助我。

提前致谢。

1 个答案:

答案 0 :(得分:2)

您可能需要将pdf的内容转换大小增加到文本 在alfresco-global.properties文件中

您可以使用这些属性为变换指定大小

如果您使用的是OOoDirect

content.transformer.complex.OpenOffice.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120 content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120

如果您使用的是OOoJodConverter

content.transformer.complex.JodConverter.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120
content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120

参考此社区问题 https://community.alfresco.com/thread/211670-changing-transformation-limits-version-5b

https://community.alfresco.com/thread/203406-how-to-config-alfresco-documents-preview-size-limit-on-42d

https://injustfiveminutes.wordpress.com/2012/11/28/docx-pptx-document-preview-fails-on-alfresco-4-2-c/