我正在尝试使用python从pdf文件中提取数据,我试图对camelot和tabula进行同样的操作,但是结果不够准确。有什么办法可以获取pdf表中的数据?
答案 0 :(得分:0)
尝试pdfreader。您可以提取包含“ pdf markdown”的文本,然后用正则表达式进行解析,例如:
from pdfreader import SimplePDFViewer, PageDoesNotExist
fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)
pdf_markdown = ""
try:
while True:
viewer.render()
pdf_markdown += viewer.canvas.text_content
viewer.next()
except PageDoesNotExist:
pass
data = my_table_parser(pdf_markdown)