Ephesoft错误,学习已从PDF转换的tiff文档

时间:2015-01-24 05:10:04

标签: tesseract ghostscript imagemagick-convert ephesoft

我在AWS实例上的Windows Server 2003上使用Ephesoft社区版。我遇到ephesoft阅读某些tiff文档的问题。我有大约100种不同的tiff文档,其中大约70%都在工作。这些tiff文档最初是PDF,我们使用最新版本的ghostscript进行转换,并使用ephesoft中的imagemagick进行清理。我们在ghostscript

中使用以下命令
  

-dNOPAUSE -r300 -sDEVICE = tiffg4 -dBATCH

使用imagemagick我们正在执行以下命令

  

- 压缩group4

当学习其中一个无效的tiff文件时,我们在日志文件中收到以下错误

Drop Box Link to Stack Trace

这是我们试图让ephesoft学习的Tiff文档之一

Drop Box Link to Tiff Document

有什么东西可以用ghostscript,imagemagick或任何其他软件来解决这个问题;或者我需要以某种方式修改ephesoft?

1 个答案:

答案 0 :(得分:1)

我通过做更多的研究找到了解决方案。

问题不涉及Ghostscript或Imagmagick。它涉及Tesseract并创建HOCR文件。当Tesseract创建特定文件时,它将德克萨斯州的值解析为Te>。 Ephesoft的社区版无法像这样处理特殊的xml字符,因此会抛出错误。

解决方案是设置将这个<>列入黑名单的Tesseract属性。符号,以便Tesseract不包括那些或解决那些。我的PDF现在似乎正常工作,我能够处理它们。