我正在尝试编写一个脚本,以从看起来像this的pdf文件中的“ Total Deviation”图中提取数字。我尝试从图的位置中提取信息而不是解析整个文件并对其进行过滤的原因是pdfminer以各种不可预测的模式导出数字(我使用了this脚本)。有时它会一起提取整行,有时会提取列,所以这就是为什么我想找到一种以一致的方式从各种文件中提取数字的方法。我们欢迎所有的建议!
答案 0 :(得分:0)
尝试pdfreader。您可以提取包含“ pdf markdown”的文本,然后用正则表达式进行解析,例如:
from pdfreader import SimplePDFViewer, PageDoesNotExist
fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)
pdf_markdown = ""
try:
while True:
viewer.render()
pdf_markdown += viewer.canvas.text_content
viewer.next()
except PageDoesNotExist:
pass
data = my_total_deviation_parser(pdf_markdown)