将pdf表形式的页面提取为结构化格式

时间:2019-04-30 15:45:21

标签: python pdf-extraction

我有一个PDF格式的产品手册:http://www8.hp.com/h20195/v2/GetDocument.aspx?docname=c05951186

如果打开该链接,则可以在第二页上看到类似表格的格式,我想对其进行解析并填充自己的python表(数据框)。我试过了tabula-py,camelot和ec。但他们无法将第二页识别为表格,因此他们什么也不返回。

我应该使用哪个库,因为我更喜欢编程方式来执行此操作,因为我必须对多个文件执行此操作?任何对此的其他建议也将不胜感激。

谢谢。

0 个答案:

没有答案