Tabula不会提取PDF表的列标题

时间:2018-10-08 13:09:36

标签: python-3.x pandas dataframe tabula pdf-extraction

在使用表格读取pdf表并将其另存为Pandas DataFrame时,当我打印DataFrame时,似乎错过了该表的列标题,但按预期提取了数据。如您所见:

Snippet of PDF table header

Tabula未检测到黄色突出显示的元素,但数据(黑色突出显示)被检测到。

for pdf_page_number in range(1,pdf_pages+1):
    print("page:", pdf_page_number, "- out of:",pdf_pages, "---")
    try:
        df = read_pdf(pdf_location, pages=pdf_page_number)
        print(df)

注意:我无法对此pdf提取文件进行任何具体调整(即使表格显示页面的特定部分),因为这不是我将要使用的唯一pdf表通用解决方案!

0 个答案:

没有答案