应用错误收集

时间：2018-07-13 07:46:12

标签： ocr tesseract python-tesseract

我正在使用tesseract（通过python包装器）以便从文档中提取文本。这些文档不包含任何图像或表格，仅包含文本。

是否有其他选项可以将标题/标题与文本区分开？理想情况下，我希望能够有一个像xml树之类的东西，而不是整个字符串链（我不需要具有文档布局的外观）。

我发现一些third party tools似乎可以提供帮助，但我想知道是否可以直接从tesseract进行。

答案 0 :(得分：0)

我回答的时间很晚，但是这个答案可能会帮助正在寻找解决方案的其他人。

首先，tesseract只能从文档中提取此类“功能”。但是您所需要的只是对ML和视觉库（例如luminoth或detectronV2）的一点了解

基本上，您必须提供一些带有标记的示例文档（例如title，header1，header2等）并训练模型。训练后，您可以在看不见的不同图像上使用模型来获取这些细节。

答案 1 :(得分：-1)

您可以使用基于 ml 的解决方案，但在此类用例中，我更喜欢使用基于 opencv 功能的轻量级解决方案。您可以使用常规文本检测并将其与形态变换配对以检测标题文本。