应用错误收集

如何使用python提取在扫描文档中以不同格式对齐的文本内容？

时间：2019-06-17 11:22:51

标签： opencv machine-learning nlp text-extraction python-tesseract

我正在从扫描的文档中提取文本，我想在其中提取内容。例如：考虑具有不同部分（如“目标”，“教育”等）的简历。在这里，我想提取实际内容每个部分下的内容。另一个挑战是：一些文档的内容位于左侧，而另一些则位于另一侧（例如文档中不同区域的多个块）。在这里，我想按节将其提取。

我使用pytesseract进行提取，但是输出是非结构化的并且没有用。它是逐行读取的，因此一旦读取了第一节的内容，它就会读取另一节的内容。

我想要的实际输出内容必须在其实际标题部分。

0 个答案:

没有答案