应用错误收集

我使用表格提取PDF表并作为DataFrame输出，但是，提取的某些情况似乎将第一列（行名）与随后的列合并。参见下文：

Extraction that has merged column 1 with column 2

PDF table snippet - Clearly two separate columns

从上面的图片中可以看到，来自一列的数据已作为第一列的一部分放置，并将其视为单列而不是两列。是否存在针对此问题的通用解决方案，因为这不是唯一遇到此问题的pdf表提取。

for pdf_page_number in range(1,pdf_pages+1):
    print("page:", pdf_page_number, "- out of:",pdf_pages, "--")
    try:
        df = read_pdf(pdf_location, pages=pdf_page_number)
        print(df)
        my_extracted_table, original_df = UltimateExtraxtor(df, financials_to_search, products_to_search)

Tabula合并多列并将其视为一列

0 个答案: