有没有办法改变订单/方式Acrobat选择PDF文本?

时间:2015-04-21 02:28:27

标签: vba pdf adobe acrobat

我有一个visual basic程序,它从PDF中提取文本并将文本导入excel。它依赖于像人一样阅读文本,在页面上从左到右阅读。但是,在这个特定的PDF上有一些实例,如果我用鼠标选择文本,我点击并直接拖动,但Adobe开始选择/突出显示上下行的单词,然后继续在整个页面突出显示。这给了我不想要/不需要的数据。该页面具有可渲染文本,而不是来自扫描文档。

有没有办法重置" Adobe如何解释PDF上的文字?由于左侧的信息与右侧的信息相差甚远,因此它几乎就像单独的列一样对待它们。

我尝试以不同的格式保存PDF,例如txt或postscript,并将其提取到另一个PDF,但它们似乎都会产生相同的结果。这对我来说很奇怪,因为我有其他类似的PDF文件,这不是一个问题。

非常感谢任何帮助或想法,谢谢。

1 个答案:

答案 0 :(得分:0)

PDF(基本形式)实质上是指在画布上放置字符串,“句子”或“阅读顺序”的概念不是内置的。

为了提取文本,您必须读出该文本的边界框,然后使用一些逻辑和启发式方法根据边界框的坐标来组合文本。

如果PDF是结构化PDF,其中文本内容作为文本嵌入文档中,事情会变得更容易。这也是可访问文档的主要要求。因此,如果您的文档可以访问,您可以依靠结构来获得正确的阅读顺序。