java - 在PDFBOX中解析PDF - 提取顺序错误？ - Thinbug

在PDFBOX中解析PDF - 提取顺序错误？

时间：2014-05-14 06:37:28

标签： java pdf pdfbox text-extraction

我需要解析（文本提取）大量的PDF，其中大部分都像这样“圆柱”（例如1页）：

|a|b|c|
|a|b|c|
|a|b|c|

我的问题是，其中一些是“混乱”，所以那些显示列与上述类似，但按照以下顺序文本提取：

|a|c|b|
|a|c|b|
|a|c|b|

在这些情况下，获取PDFBOX以获得解析顺序的方法是什么？

感谢您的任何想法！

0 个答案:

没有答案