我正在使用pdfMiner解析PDF,并将其用作我的python脚本中的库。
在大多数这些PDF中都有一个表,其中一列被命名为“company”。
有没有办法: 1)检测PDF中该表的存在。 2)获取所有公司名称(即表格第2列中的所有条目)。
感谢您的帮助 AC
答案 0 :(得分:0)
我到目前为止找到的最好方法是在pdfminer lib中使用HTMLconverter类。这允许您以HTML格式转换pdf,并且更容易找出表,行和列。至少就我而言:它可能适用于PDF文件中的各种表格。