我们应该使用哪个python库从PDF中提取带有复杂标题的表?

时间:2019-06-10 13:15:36

标签: python pdf ocr data-extraction tabula

我试图使用许多库从PDF中提取表,例如:camelot,tabula,PDFPlumber,PDFTabExtract……但是它们的效果并不理想。 主要问题是标头格式复杂,而我有不同的标头格式。

使用camelot时,我没有一个适用于PDF中所有页面的脚本。 使用Tabula,当表格的文本标题旋转时,我得到了一个令人困惑的数据框。 使用PDFPlumber,流表出现问题(仅适用于莱迪思表) 而PDFTabExtract旋转文本时出现问题,它会忽略它。

有什么解决方案可以转换成不同格式的pdf表吗?我知道我找不到通用的解决方案,但至少可以提供不错的结果。

我应该使用OCR吗?你会推荐什么 ?

我非常感谢任何结果。 预先谢谢您。enter image description here enter image description here

1 个答案:

答案 0 :(得分:0)

PDF没有描述表的专用方法。通过操纵文本块之间的距离来构建表。从PDF中提取表格的文本是基于通过分析这些距离来识别类似表格的结构。

由于检测不是确定性的(即像docx文件中的表一样),因此您提到的每个解决方案都有自己的启发式方法来检测表和文本。每种方法都有其优缺点。复杂的表格(例如您作为示例给出的表格)势必会导致大多数或所有PDF文本提取器的结果不佳。

OCR可能会以相似的方式识别表并给出相似的结果。