pdf - 在 pdf 中阅读最高级别文本的最佳方式

我经常提供我需要从中提取文本的 pdf。为此，我编写了一个 vb.net 程序，它调用非常有用的 pdftotext 作为获取文本的过程。

这在大多数情况下效果很好，但对于某些 pdf，有人将文本放置在现有文本顶部的白框中。

当我读到这个时，原文和新文本结合在一起，最后我是胡言乱语。

因此，我正在寻找一种方法，仅将 pdf 指定区域中的“可见”文本提取到文本文件中 - 即您可以在 pdf 阅读器（最顶层）中看到的内容。

有没有人对如何做到这一点有任何建议？我找不到比 pdftotext 更好的替代程序。

感谢阅读。