应用错误收集

时间：2019-06-10 13:15:36

标签： python pdf ocr data-extraction tabula

我试图使用许多库从PDF中提取表，例如：camelot，tabula，PDFPlumber，PDFTabExtract……但是它们的效果并不理想。主要问题是标头格式复杂，而我有不同的标头格式。

使用camelot时，我没有一个适用于PDF中所有页面的脚本。使用Tabula，当表格的文本标题旋转时，我得到了一个令人困惑的数据框。使用PDFPlumber，流表出现问题（仅适用于莱迪思表）而PDFTabExtract旋转文本时出现问题，它会忽略它。

有什么解决方案可以转换成不同格式的pdf表吗？我知道我找不到通用的解决方案，但至少可以提供不错的结果。

我应该使用OCR吗？你会推荐什么？

我非常感谢任何结果。预先谢谢您。

答案 0 :(得分：0)

PDF没有描述表的专用方法。通过操纵文本块之间的距离来构建表。从PDF中提取表格的文本是基于通过分析这些距离来识别类似表格的结构。

由于检测不是确定性的（即像docx文件中的表一样），因此您提到的每个解决方案都有自己的启发式方法来检测表和文本。每种方法都有其优缺点。复杂的表格（例如您作为示例给出的表格）势必会导致大多数或所有PDF文本提取器的结果不佳。

OCR可能会以相似的方式识别表并给出相似的结果。