在 pdf 中阅读最高级别文本的最佳方式

时间:2021-03-12 09:55:14

标签: pdf extract

我经常提供我需要从中提取文本的 pdf。为此,我编写了一个 vb.net 程序,它调用非常有用的 pdftotext 作为获取文本的过程。

这在大多数情况下效果很好,但对于某些 pdf,有人将文本放置在现有文本顶部的白框中。

当我读到这个时,原文和新文本结合在一起,最后我是胡言乱语。

因此,我正在寻找一种方法,仅将 pdf 指定区域中的“可见”文本提取到文本文件中 - 即您可以在 pdf 阅读器(最顶层)中看到的内容。

有没有人对如何做到这一点有任何建议?我找不到比 pdftotext 更好的替代程序。

感谢阅读。

0 个答案:

没有答案