使用带有Tabula的python在pdf中标识带有网格线的表

时间:2018-09-28 12:31:18

标签: python python-3.x pandas pdf pdf-scraping

我正在尝试提取pdf文档(约250页)中包含的所有表。问题不在于提取。问题是识别表。在我的算法中,它会像内容一样获取垃圾数据,有时还会接收不需要的项目符号。我特别希望表格仅带有网格线。

from PyPDF2 import PdfFileWriter, PdfFileReader
from tabula import read_pdf
pages_required=[]
reader = PdfFileReader(open("input.pdf", mode='rb' ))
n = reader.getNumPages()
for page in [str(i+1) for i in range(n)]:
    df=read_pdf(r"input.pdf", pages=page)
    if df is not None:
        pages_required.append(page)
print(pages_required)

这会在一定程度上但不能完全过滤掉我的页面。我只需要一个包含具有网格线表的页码的数组。有办法吗?

0 个答案:

没有答案