在使用表格读取pdf表并将其另存为Pandas DataFrame时,当我打印DataFrame时,似乎错过了该表的列标题,但按预期提取了数据。如您所见:
Snippet of PDF table header
Tabula未检测到黄色突出显示的元素,但数据(黑色突出显示)被检测到。
for pdf_page_number in range(1,pdf_pages+1):
print("page:", pdf_page_number, "- out of:",pdf_pages, "---")
try:
df = read_pdf(pdf_location, pages=pdf_page_number)
print(df)
注意:我无法对此pdf提取文件进行任何具体调整(即使表格显示页面的特定部分),因为这不是我将要使用的唯一pdf表通用解决方案!