我经常提供我需要从中提取文本的 pdf。为此,我编写了一个 vb.net 程序,它调用非常有用的 pdftotext 作为获取文本的过程。
这在大多数情况下效果很好,但对于某些 pdf,有人将文本放置在现有文本顶部的白框中。
当我读到这个时,原文和新文本结合在一起,最后我是胡言乱语。
因此,我正在寻找一种方法,仅将 pdf 指定区域中的“可见”文本提取到文本文件中 - 即您可以在 pdf 阅读器(最顶层)中看到的内容。
有没有人对如何做到这一点有任何建议?我找不到比 pdftotext 更好的替代程序。
感谢阅读。