我正在使用PDFMiner Python library中提供的代码段将PDF文件转换为this SO answer的文本。问题是PDF格式为三列,我需要读取每一行。但是,我得到的文本是无序的:有时混合第一列和第二列,有时混合第三列......由于文本不遵循任何逻辑顺序,我无法解析每一行。那么,有没有办法使用PDFMiner获取PDF文件的每一行?
编辑:
PDFMiner附带命令行工具pdf2txt.py
,用于将PDF转换为文本。使用它并将0.05
设置为单词边距,我可以获得更好的格式化文本,但无法实现目标。
答案 0 :(得分:0)
解析表时我有类似的*。对我有用的是exctract HTML。然后你可以解析HTML表并考虑表标签(参见HTMLParser的python文档。)我只有表可以查找,等等。
我的两分钱:)。
* Word中的表格被复制到QT TextEdit小部件中。窗口小部件接受富文本,但如果导出为文本,表格将被删除。导出为HTML,解析HTML,获取数据:)这是否正常工作,这里没有代码。