python - PDFMiner - 获取文本行

PDFMiner - 获取文本行

时间：2013-08-06 07:36:03

标签： python pdftotext

我正在使用PDFMiner Python library中提供的代码段将PDF文件转换为this SO answer的文本。问题是PDF格式为三列，我需要读取每一行。但是，我得到的文本是无序的：有时混合第一列和第二列，有时混合第三列......由于文本不遵循任何逻辑顺序，我无法解析每一行。那么，有没有办法使用PDFMiner获取PDF文件的每一行？

编辑：

PDFMiner附带命令行工具pdf2txt.py，用于将PDF转换为文本。使用它并将0.05设置为单词边距，我可以获得更好的格式化文本，但无法实现目标。

1 个答案:

答案 0 :(得分：0)

解析表时我有类似的*。对我有用的是exctract HTML。然后你可以解析HTML表并考虑表标签（参见HTMLParser的python文档。）我只有表可以查找，等等。

我的两分钱:)。

* Word中的表格被复制到QT TextEdit小部件中。窗口小部件接受富文本，但如果导出为文本，表格将被删除。导出为HTML，解析HTML，获取数据:)这是否正常工作，这里没有代码。