应用错误收集

PDFMINER工具pdf2txt抓取数据顺序

时间：2012-07-07 14:34:29

标签： python

我想从pdf文件中提取数据。我正在使用pdfminer工具pdf2txt将pdf转换为纯文本。但是生成的文本文件搞乱了数据的顺序（遇到表的地方和之后）。然后我尝试将pdf转换为html但是，唉，同样的结果。我是python的新手......而且我也无法理解pdfminer库的广泛工作。有没有办法保存数据顺序？

1 个答案:

答案 0 :(得分：2)

尝试使用以下附加参数运行脚本：-M 30 -W .95 -L .03

我遇到了和你描述的问题相同的问题，这大大改善了输出。但是，使用pdftotext.exe（xpdf的一部分）可以获得更好的结果。在这里下载：

http://www.foolabs.com/xpdf/download.html

麦克

PDFMINER工具pdf2txt抓取数据顺序
使用pdf2txt的UnicodeDecodeError
PDFMiner Python2.7错误
PDFMiner从PDF中提取文本而不混合订单
将参数传递给pdf2txt函数
即使在Python中尝试pdfminer，pdf2txt，textract，也无法将pdf转换为文本
使用pdfminer - 有没有办法检测下划线？
如何使用PDF Miner通过python代码而不使用任何命令行工具来获取文本的字体大小？
pdf2txt-相当于python
有人可以帮我了解此错误在pdfminer的pdf2txt中的含义吗：AttributeError：'PDFObjRef'对象没有属性'decode'

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？