Tabula合并多列并将其视为一列

时间:2018-10-08 15:10:22

标签: python-3.x pandas dataframe tabula pdf-extraction

我使用表格提取PDF表并作为DataFrame输出,但是,提取的某些情况似乎将第一列(行名)与随后的列合并。参见下文:

Extraction that has merged column 1 with column 2

PDF table snippet - Clearly two separate columns

从上面的图片中可以看到,来自一列的数据已作为第一列的一部分放置,并将其视为单列而不是两列。是否存在针对此问题的通用解决方案,因为这不是唯一遇到此问题的pdf表提取。

for pdf_page_number in range(1,pdf_pages+1):
    print("page:", pdf_page_number, "- out of:",pdf_pages, "--")
    try:
        df = read_pdf(pdf_location, pages=pdf_page_number)
        print(df)
        my_extracted_table, original_df = UltimateExtraxtor(df, financials_to_search, products_to_search)

0 个答案:

没有答案