标签: php pdf ocr
我们在服务器上有数百个PDF文件。其中一些包含可搜索的文本而另一些则不包含。
我被要求找出哪些是可搜索的,哪些不是。
是否有人知道如何阅读一堆PDF并确定该PDF文档是否包含可搜索/可选择的文本,或者pdf是否包含需要OCRd的不可选择/可搜索文本?
我甚至不需要实际阅读文字;我只需要能够通过标签或关键字来检测,这表明原始数据中存在字体或类似内容。
可搜索的PDF中是否有可以轻松检测的标签?
由于
答案 0 :(得分:1)
我相信你可以modify this code(pdf2text)来满足你的目的。或者this answer也可能让你到达正确的位置。