我使用表格提取PDF表并作为DataFrame输出,但是,提取的某些情况似乎将第一列(行名)与随后的列合并。参见下文:
Extraction that has merged column 1 with column 2
PDF table snippet - Clearly two separate columns
从上面的图片中可以看到,来自一列的数据已作为第一列的一部分放置,并将其视为单列而不是两列。是否存在针对此问题的通用解决方案,因为这不是唯一遇到此问题的pdf表提取。
for pdf_page_number in range(1,pdf_pages+1):
print("page:", pdf_page_number, "- out of:",pdf_pages, "--")
try:
df = read_pdf(pdf_location, pages=pdf_page_number)
print(df)
my_extracted_table, original_df = UltimateExtraxtor(df, financials_to_search, products_to_search)