使用python从pdf文件中提取表格数据

时间:2019-12-12 06:34:17

标签: python-3.x pdf data-extraction

我正在尝试使用python从pdf文件中提取数据,我试图对camelot和tabula进行同样的操作,但是结果不够准确。有什么办法可以获取pdf表中的数据?

1 个答案:

答案 0 :(得分:0)

尝试pdfreader。您可以提取包含“ pdf markdown”的文本,然后用正则表达式进行解析,例如:

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

pdf_markdown = ""

try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        viewer.next()
except PageDoesNotExist:
    pass

data = my_table_parser(pdf_markdown)