我在AWS实例上的Windows Server 2003上使用Ephesoft社区版。我遇到ephesoft阅读某些tiff文档的问题。我有大约100种不同的tiff文档,其中大约70%都在工作。这些tiff文档最初是PDF,我们使用最新版本的ghostscript进行转换,并使用ephesoft中的imagemagick进行清理。我们在ghostscript
中使用以下命令-dNOPAUSE -r300 -sDEVICE = tiffg4 -dBATCH
使用imagemagick我们正在执行以下命令
- 压缩group4
当学习其中一个无效的tiff文件时,我们在日志文件中收到以下错误
这是我们试图让ephesoft学习的Tiff文档之一
Drop Box Link to Tiff Document
有什么东西可以用ghostscript,imagemagick或任何其他软件来解决这个问题;或者我需要以某种方式修改ephesoft?
答案 0 :(得分:1)
我通过做更多的研究找到了解决方案。
问题不涉及Ghostscript或Imagmagick。它涉及Tesseract并创建HOCR文件。当Tesseract创建特定文件时,它将德克萨斯州的值解析为Te>。 Ephesoft的社区版无法像这样处理特殊的xml字符,因此会抛出错误。
解决方案是设置将这个<>列入黑名单的Tesseract属性。符号,以便Tesseract不包括那些或解决那些。我的PDF现在似乎正常工作,我能够处理它们。