确定PDF文件是否在PHP中具有可搜索的文本

时间:2013-05-15 12:23:26

标签: php pdf ocr

我们在服务器上有数百个PDF文件。其中一些包含可搜索的文本而另一些则不包含。

我被要求找出哪些是可搜索的,哪些不是。

是否有人知道如何阅读一堆PDF并确定该PDF文档是否包含可搜索/可选择的文本,或者pdf是否包含需要OCRd的不可选择/可搜索文本?

我甚至不需要实际阅读文字;我只需要能够通过标签或关键字来检测,这表明原始数据中存在字体或类似内容。

可搜索的PDF中是否有可以轻松检测的标签?

由于

1 个答案:

答案 0 :(得分:1)

我相信你可以modify this code(pdf2text)来满足你的目的。或者this answer也可能让你到达正确的位置。