我正在使用TIKA和Tesseract从包含扫描图像的pdf文件中提取OCR文本。我设法用ResursiveParserWrapper而不是Parser解析了包含图像的pdf文档,但是客户端工作正常 希望在其他地方进行与Tesseract OCR相关的所有配置,并使用现有代码,因为它是从所有支持的格式中提取OCR文本提取。
现有代码使用简单的解析器提取数据。有人可以帮我解释一下为什么要从包含扫描图像的图像或pdf中提取数据时为什么使用RecursiveParserWrapper而不是普通的Parser。
答案 0 :(得分:0)
RecursiveParserWrapper有3个好处。 1)维护嵌入式文档中的元数据 2)在嵌入式文档中记录来自解析异常的堆栈跟踪 3)更容易识别来自主文档的内容和来自嵌入式文档/附件的内容
如果您不关心这些,则应该能够使用AutoDetectParser和RecursiveParserWrapper提取相同的文本。如果您发现提取的文字有所不同,请在Tika的JIRA上打开一张票。
还请注意,如果您使用的是旧版本的Tika(<1.15),则需要为每个解析提供ParseContext中嵌入文档的解析器;如果您在旧版本中不这样做,则Tika不会解析任何嵌入式文档。