我想从pdf文件中提取数据。我正在使用pdfminer工具pdf2txt将pdf转换为纯文本。但是生成的文本文件搞乱了数据的顺序(遇到表的地方和之后)。然后我尝试将pdf转换为html但是,唉,同样的结果。我是python的新手......而且我也无法理解pdfminer库的广泛工作。有没有办法保存数据顺序?
答案 0 :(得分:2)
尝试使用以下附加参数运行脚本:-M 30 -W .95 -L .03
我遇到了和你描述的问题相同的问题,这大大改善了输出。但是,使用pdftotext.exe(xpdf的一部分)可以获得更好的结果。在这里下载:
http://www.foolabs.com/xpdf/download.html
麦克