有没有办法区分带OCR文本和不带OCR文本的PDF?

时间:2019-11-02 08:33:55

标签: pdf

我收集了大约6000份关于放射虫的科学论文的pdf副本。这是一个很棒的集合,我正在使用它来帮助建立一个处理它们的Web分类网站。无论如何,PDF是一个非常复杂的包,有些是由现代出版商生产的PDF,有些是对旧书的扫描。拥有一些根据可能的质量自动标记它们的方法真的很有用?

0 个答案:

没有答案