在PDFBOX中解析PDF - 提取顺序错误?

时间:2014-05-14 06:37:28

标签: java pdf pdfbox text-extraction

我需要解析(文本提取)大量的PDF,其中大部分都像这样“圆柱”(例如1页):

|a|b|c|
|a|b|c|
|a|b|c|

我的问题是,其中一些是“混乱”,所以那些显示 列与上述类似,但按照以下顺序文本提取

|a|c|b|
|a|c|b|
|a|c|b|

在这些情况下,获取PDFBOX以获得解析顺序的方法是什么?

感谢您的任何想法!

0 个答案:

没有答案