应用错误收集

在使用表格读取pdf表并将其另存为Pandas DataFrame时，当我打印DataFrame时，似乎错过了该表的列标题，但按预期提取了数据。如您所见：

Tabula未检测到黄色突出显示的元素，但数据（黑色突出显示）被检测到。

for pdf_page_number in range(1,pdf_pages+1):
    print("page:", pdf_page_number, "- out of:",pdf_pages, "---")
    try:
        df = read_pdf(pdf_location, pages=pdf_page_number)
        print(df)

注意：我无法对此pdf提取文件进行任何具体调整（即使表格显示页面的特定部分），因为这不是我将要使用的唯一pdf表通用解决方案！

Tabula不会提取PDF表的列标题

0 个答案: