应用错误收集

pdfminer - 访问PDF表格

时间：2016-12-14 09:47:59

标签： python parsing pdf pdfminer

我正在使用pdfMiner解析PDF，并将其用作我的python脚本中的库。

在大多数这些PDF中都有一个表，其中一列被命名为“company”。

有没有办法： 1）检测PDF中该表的存在。 2）获取所有公司名称（即表格第2列中的所有条目）。

感谢您的帮助 AC

1 个答案:

答案 0 :(得分：0)

我到目前为止找到的最好方法是在pdfminer lib中使用HTMLconverter类。这允许您以HTML格式转换pdf，并且更容易找出表，行和列。至少就我而言：它可能适用于PDF文件中的各种表格。