文档比较引擎/搜索

时间:2011-05-18 21:58:24

标签: php comparison document

我有大量的文档文件,包括.pdf,.one,.doc,.docx等。我试图找到一种方法来比较文件的文本内容,以查找重复或近似匹配。我在用户上传文件的LAMP堆栈上有一个站点构建。我可以比较上传文件或运行cron作业。我见过类似上下文中提到的Apache Lucene,Zend Search Lucene似乎是一个强大的PHP版本,但它们比搜索更具搜索性。是否有办法将这些用于比较目的?

谢谢, 克里斯

1 个答案:

答案 0 :(得分:0)

我认为比较匹配文件可能比比较近似匹配更容易。它可能需要采用一系列方法。

马上,我会使用类似hash_file()的内容来获取文件内容的哈希值。然后,您可以使用文件内容的超短表示形式,以便与其他文件哈希相匹配以查找重复项。您可以尝试散列不同的值或尝试收集有关您的文件的一些信息,例如strlen()或类似的东西,以便比较“近似重复”。希望这很有帮助。听起来肯定是一个挑战。