标签: java pdf pdfbox text-extraction
我需要解析(文本提取)大量的PDF,其中大部分都像这样“圆柱”(例如1页):
|a|b|c| |a|b|c| |a|b|c|
我的问题是,其中一些是“混乱”,所以那些显示 列与上述类似,但按照以下顺序文本提取:
|a|c|b| |a|c|b| |a|c|b|
在这些情况下,获取PDFBOX以获得解析顺序的方法是什么?
感谢您的任何想法!