从python中的PDF中提取所有表格

时间:2018-09-07 09:06:55

标签: python pdf pdftables

我有一个PDF,并希望从该PDF中提取所有表格。当我运行下面的代码时,我得到一个空列表。

filepath = 'File_Set_-2_feasibility_Study/140u-td005_-en-p.pdf'
fh = open(filepath, 'rb')
table = pdftables.get_tables(fh)
print(table)

2 个答案:

答案 0 :(得分:2)

我认为PDF有多个页面吗?这应该起作用:

a

您也可以遍历多个页面:

from pdftables.pdf_document import PDFDocument
from pdftables.pdftables import page_to_tables

filepath = ...
page_number = ...
with open(filepath, 'rb') as file_object:
    pdf_doc = PDFDocument.from_fileobj(file_object)
    pdf_page = pdf_doc.get_page(pagenumber) 
    tables = page_to_tables(pdf_page)
    print(tables)

答案 1 :(得分:0)

#install 下面的库使用 pdf 表,它对我有用

> pip install pdftables.six