是否有任何可以帮助检测重复内容的热门PHP
库或服务?
我运行一个包含用户生成内容的网站,我想检测相似或重复的内容。是否有任何受欢迎的图书馆可以帮助解决这个问题?
答案 0 :(得分:2)
文本相似性/抄袭/复制是一个很大的主题。有太多的算法和解决方案。
有些项目使用“自适应本地对齐关键字”(您可以在google上找到相关信息。)
另外,你可以检查一下(检查答案中的3个链接,非常有启发性):
Cosine similarity vs Hamming distance
希望这会有所帮助。