Question

我正在尝试使用python从pdf文件中提取数据，我试图对camelot和tabula进行同样的操作，但是结果不够准确。有什么办法可以获取pdf表中的数据？

Answer 1

尝试pdfreader。您可以提取包含“ pdf markdown”的文本，然后用正则表达式进行解析，例如：

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

pdf_markdown = ""

try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        viewer.next()
except PageDoesNotExist:
    pass

data = my_table_parser(pdf_markdown)

使用python从pdf文件中提取表格数据

1 个答案: