我在Alfresco 5.0.d中集成了Tesseract-ocr,我的要求是将PDF文件数据转换为文本格式。
它适用于小型文件。
但如果我要上传更大尺寸的文件,比如超过50 MB,
在这种情况下,它在下面给出Exception,并且整个pdf文件不会被转换为文本文件。 只有一些起始页面被转换为文本格式。
请参阅以下日志
java.net.SocketTimeoutException: Read timed out
at java.net.SocketInputStream.socketRead0(Native Method)
at java.net.SocketInputStream.socketRead(SocketInputStream.java:116)
at java.net.SocketInputStream.read(SocketInputStream.java:170)
at java.net.SocketInputStream.read(SocketInputStream.java:141)
at sun.security.ssl.InputRecord.readFully(InputRecord.java:465)
at sun.security.ssl.InputRecord.read(InputRecord.java:503)
有没有人遇到同样的问题,请帮助我。
提前致谢。
答案 0 :(得分:2)
您可能需要将pdf的内容转换大小增加到文本 在alfresco-global.properties文件中
您可以使用这些属性为变换指定大小
如果您使用的是OOoDirect
content.transformer.complex.OpenOffice.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120 content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120
如果您使用的是OOoJodConverter
content.transformer.complex.JodConverter.Pdf2swf.extensions.doc.swf.maxSourceSizeKBytes=5120
content.transformer.complex.OpenOffice.Pdf2swf.extensions.docx.swf.maxSourceSizeKBytes=5120
参考此社区问题 https://community.alfresco.com/thread/211670-changing-transformation-limits-version-5b