标签: opencv machine-learning nlp text-extraction python-tesseract
我正在从扫描的文档中提取文本,我想在其中提取内容。例如:考虑具有不同部分(如“目标”,“教育”等)的简历。在这里,我想提取实际内容每个部分下的内容。另一个挑战是: 一些文档的内容位于左侧,而另一些则位于另一侧(例如文档中不同区域的多个块)。在这里,我想按节将其提取。
我使用pytesseract进行提取,但是输出是非结构化的并且没有用。它是逐行读取的,因此一旦读取了第一节的内容,它就会读取另一节的内容。
我想要的实际输出内容必须在其实际标题部分。