应用错误收集

Science-Parse查看Allen AI。它在从PDF文档中提取元数据方面做得相当不错。通常，它比其他文本提取软件更好，例如textract和pdfplumber。

从PDF中精确提取数学公式已成为多年来的研究课题。我没有找到任何与提取数学公式有关的开源项目/软件包/软件，尽管有很多研究论文描述了这样做的方法，例如this和{{ 3}}。（已经对识别的数学公式或将它们转换为适当的标记（如LaTeX，MathML等）进行了更多的研究。这些论文中的大多数都使用有关字体，基线，字形边界框的信息，行间距等，以正确识别数学公式并提取它们。

对于OCR，您始终可以使用this。这就是InftyReader的描述：

InftyReader识别打印的科学文档的扫描图像包括数学公式，输出各种识别结果格式：InftyEditor，LaTeX，MathML，Human-Readable TeX的XML格式盲人等等。

识别并提取PDF文档的特定部分

1 个答案: