pdfminer - 访问PDF表格

时间:2016-12-14 09:47:59

标签: python parsing pdf pdfminer

我正在使用pdfMiner解析PDF,并将其用作我的python脚本中的库。

在大多数这些PDF中都有一个表,其中一列被命名为“company”。

有没有办法: 1)检测PDF中该表的存在。 2)获取所有公司名称(即表格第2列中的所有条目)。

感谢您的帮助 AC

1 个答案:

答案 0 :(得分:0)

我到目前为止找到的最好方法是在pdfminer lib中使用HTMLconverter类。这允许您以HTML格式转换pdf,并且更容易找出表,行和列。至少就我而言:它可能适用于PDF文件中的各种表格。