如何使用python提取在扫描文档中以不同格式对齐的文本内容?

时间:2019-06-17 11:22:51

标签: opencv machine-learning nlp text-extraction python-tesseract

我正在从扫描的文档中提取文本,我想在其中提取内容。例如:考虑具有不同部分(如“目标”,“教育”等)的简历。在这里,我想提取实际内容每个部分下的内容。另一个挑战是: 一些文档的内容位于左侧,而另一些则位于另一侧(例如文档中不同区域的多个块)。在这里,我想按节将其提取。

我使用pytesseract进行提取,但是输出是非结构化的并且没有用。它是逐行读取的,因此一旦读取了第一节的内容,它就会读取另一节的内容。

我想要的实际输出内容必须在其实际标题部分。

0 个答案:

没有答案