使用Tabula从PDF中提取表格

时间:2017-03-01 17:32:28

标签: python parsing pdf tabula

我遇到了一个名为Tabula的伟大图书馆,它几乎完成了这个伎俩。不幸的是,第一页上有很多无用的区域,我不想让Tabula提取。根据文档,您可以指定要从中提取的页面区域。但是,无用区域仅在我的PDF文件的第一页上,因此,对于所有后续页面,Tabula将错过顶部。有没有办法指定区域条件应用于PDF的第一页?

id

3 个答案:

答案 0 :(得分:1)

我试图处理类似的事情(解析银行对账单)并遇到同样的问题。到目前为止我找到解决这个问题的唯一方法是分别解析每个页面。

唯一的问题是,这需要事先知道您的文件组成了多少页。目前我还没有找到如何使用Tabula直接执行此操作,因此我决定使用pyPdf模块来获取页数。

import pyPdf
from tabula import read_pdf

reader = pyPdf.PdfFileReader(open("C:\Users\riley\Desktop\Bank Statements\50340.pdf", mode='rb' ))
n = reader.getNumPages() 

df = []
for page in [str(i+1) for i in range(n)]:
    if page == "1":
            df.append(read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf", area=(530,12.75,790.5,561), pages=page))
    else:
            df.append(read_pdf(r"C:\Users\riley\Desktop\Bank Statements\50340.pdf", pages=page))

请注意,在单独阅读每个页面时,或者同时阅读所有页面时,有一些known and open issues

祝你好运!

08/03/2017编辑:

找到一种更简单的方法来计算pdf的页面,而无需通过pyPDf

import re
def count_pdf_pages(file_path):
    rxcountpages = re.compile(r"/Type\s*/Page([^s]|$)", re.MULTILINE|re.DOTALL)
    with open(file_path, "rb") as temp_file:
        return len(rxcountpages.findall(temp_file.read()))

其中file_path是文件的路径

答案 1 :(得分:1)

parameter'guess=False'将解决问题。

答案 2 :(得分:0)

使用以下代码!它可以帮助您!!!

import os
os.path.abspath("E:/Documents/myPy/")
from tabula import wrapper
tables = wrapper.read_pdf("MyPDF.pdf",multiple_tables=True,pages='all')

i=1
for table in tables:
    table.to_excel('output'+str(i)+'.xlsx',index=False)
    print(i)
    i=i+1