应用错误收集

为什么要使用RecursiveParserWrapper而不是Parser来从图像中提取文本？

时间：2018-06-25 14:24:19

标签： tesseract apache-tika

我正在使用TIKA和Tesseract从包含扫描图像的pdf文件中提取OCR文本。我设法用ResursiveParserWrapper而不是Parser解析了包含图像的pdf文档，但是客户端工作正常希望在其他地方进行与Tesseract OCR相关的所有配置，并使用现有代码，因为它是从所有支持的格式中提取OCR文本提取。

现有代码使用简单的解析器提取数据。有人可以帮我解释一下为什么要从包含扫描图像的图像或pdf中提取数据时为什么使用RecursiveParserWrapper而不是普通的Parser。

1 个答案:

答案 0 :(得分：0)

RecursiveParserWrapper有3个好处。 1）维护嵌入式文档中的元数据 2）在嵌入式文档中记录来自解析异常的堆栈跟踪 3）更容易识别来自主文档的内容和来自嵌入式文档/附件的内容

如果您不关心这些，则应该能够使用AutoDetectParser和RecursiveParserWrapper提取相同的文本。如果您发现提取的文字有所不同，请在Tika的JIRA上打开一张票。

还请注意，如果您使用的是旧版本的Tika（<1.15），则需要为每个解析提供ParseContext中嵌入文档的解析器；如果您在旧版本中不这样做，则Tika不会解析任何嵌入式文档。