从PDF提取表格

时间:2019-08-11 16:57:49

标签: python excel pdf tabula-py

我正尝试从PDF中提取表格,然后使用python tabula-py将其写入Excel。这是代码。

tabula.convert_into("input.pdf", "output.xlsx", output_format="xlsx", multiple_tables=True, stream=True, spreadsheets=True, pages='all')

一切正常,我得到了output.xlsx,但是问题是字体大小/样式没有像在PDF中那样保留。 有什么办法可以保持字体大小/样式?

1 个答案:

答案 0 :(得分:0)

不。默认情况下,tabula-py强制将PDF转换为CSV,而不是xlsx。 tabula-py称为tabula-java,它也没有办法转换为XLSX。