我正在尝试在python中编写一个pdf布局分析器。我已经能够使用Pandas为工作产生一些相当不错的结果。但是,到目前为止,我一直在使用JPedal生成的数据,但产生的坐标似乎包含一些相当大的不准确性,这些都会影响最终结果。目前我正在使用像这样的Pandas DF中表示的数据:
font page style words x1 x2 y1 y2
0 Times-Roman 1 font-size:22pt K 206 214 120 144
1 Times-Roman 1 font-size:22pt O 226 234 120 144
2 Times-Roman 1 font-size:22pt H 245 253 120 144
现在我正在考虑尝试使用pdfminer来生成包含相同基本属性的数据。据我所知,我应该使用pdfminer布局对象来获取这些数据。不幸的是,文档有点模糊。解决方案的指针将非常感激。
答案 0 :(得分:1)
我一直在项目中使用PDFMiner,只需使用它的命令行工具来生成XML,并使用那里的坐标。
这得到了各个角色的坐标 - 我正在从那里进行自己的布局分析,因为我没有发现内置分析在我的文档上运行得很好。