应用错误收集

Ephesoft错误，学习已从PDF转换的tiff文档

时间：2015-01-24 05:10:04

标签： tesseract ghostscript imagemagick-convert ephesoft

我在AWS实例上的Windows Server 2003上使用Ephesoft社区版。我遇到ephesoft阅读某些tiff文档的问题。我有大约100种不同的tiff文档，其中大约70％都在工作。这些tiff文档最初是PDF，我们使用最新版本的ghostscript进行转换，并使用ephesoft中的imagemagick进行清理。我们在ghostscript

中使用以下命令

-dNOPAUSE -r300 -sDEVICE = tiffg4 -dBATCH

使用imagemagick我们正在执行以下命令

- 压缩group4

当学习其中一个无效的tiff文件时，我们在日志文件中收到以下错误

Drop Box Link to Stack Trace

这是我们试图让ephesoft学习的Tiff文档之一

Drop Box Link to Tiff Document

有什么东西可以用ghostscript，imagemagick或任何其他软件来解决这个问题;或者我需要以某种方式修改ephesoft？

1 个答案:

答案 0 :(得分：1)

我通过做更多的研究找到了解决方案。

问题不涉及Ghostscript或Imagmagick。它涉及Tesseract并创建HOCR文件。当Tesseract创建特定文件时，它将德克萨斯州的值解析为Te＆gt;。 Ephesoft的社区版无法像这样处理特殊的xml字符，因此会抛出错误。

解决方案是设置将这个＆lt;＆gt;列入黑名单的Tesseract属性。符号，以便Tesseract不包括那些或解决那些。我的PDF现在似乎正常工作，我能够处理它们。