OCR Tesseract:用于将标题与文本分开的选项

时间:2018-07-13 07:46:12

标签: ocr tesseract python-tesseract

我正在使用tesseract(通过python包装器)以便从文档中提取文本。这些文档不包含任何图像或表格,仅包含文本。

是否有其他选项可以将标题/标题与文本区分开?理想情况下,我希望能够有一个像xml树之类的东西,而不是整个字符串链(我不需要具有文档布局的外观)。

我发现一些third party tools似乎可以提供帮助,但我想知道是否可以直接从tesseract进行。

enter image description here

2 个答案:

答案 0 :(得分:0)

我回答的时间很晚,但是这个答案可能会帮助正在寻找解决方案的其他人。

首先,tesseract只能从文档中提取此类“功能”。但是您所需要的只是对ML和视觉库(例如luminothdetectronV2)的一点了解

基本上,您必须提供一些带有标记的示例文档(例如title,header1,header2等)并训练模型。训练后,您可以在看不见的不同图像上使用模型来获取这些细节。

答案 1 :(得分:-1)

您可以使用基于 ml 的解决方案,但在此类用例中,我更喜欢使用基于 opencv 功能的轻量级解决方案。您可以使用常规文本检测并将其与形态变换配对以检测标题文本。