识别并提取PDF文档的特定部分

时间:2017-11-07 01:54:47

标签: python pdf ocr image-recognition pdf-parsing

我有几种PDF格式的考试。我想以编程方式将每个问题提取为单独的图像/文档。 OCR并不理想,因为它不能很好地保持代码/等式格式。最终目标是制作闪存卡,每张卡包含整个问题的图像。问题可以在同一页面上,也可以是多部分的(例如1a,2f等)。

目前,我正在考虑使用OCR提取问题标签(例如1,2,3等),然后在pdf中找到它们的位置,并从一个问题的开头到下一个问题的开头提取一个iamge 。是否有任何框架或软件可以做到这一点或提供某种替代方法,使这更容易?

1 个答案:

答案 0 :(得分:2)

Science-Parse查看Allen AI。它在从PDF文档中提取元数据方面做得相当不错。通常,它比其他文本提取软件更好,例如textractpdfplumber

从PDF中精确提取数学公式已成为多年来的研究课题。我没有找到任何与提取数学公式有关的开源项目/软件包/软件,尽管有很多研究论文描述了这样做的方法,例如this和{{ 3}}。 (已经对识别的数学公式或将它们转换为适当的标记(如LaTeX,MathML等)进行了更多的研究。这些论文中的大多数都使用有关字体,基线,字形边界框的信息,行间距等,以正确识别数学公式并提取它们。

对于OCR,您始终可以使用this。这就是InftyReader的描述:

  

InftyReader识别打印的科学文档的扫描图像   包括数学公式,输出各种识别结果   格式:InftyEditor,LaTeX,MathML,Human-Readable TeX的XML格式   盲人等等。