应用错误收集

文本比较

时间：2012-12-29 12:48:58

标签： php algorithm

我有500多篇文章的数据库，每5分钟PHP脚本检查带有新闻的XML文件。我需要忽略我已经拥有的文章。我需要检查新闻的相似性，因为有些人只是重写它。例如：

有人写道：“你好，我的名字是约翰！你好吗？” 第二个会写：“你好！你好吗？我叫约翰！”

这不是一个好例子，但我有这个问题。为了比较文本，我将使用带状疱疹算法。但它怎么做得更好？我认为每次检查xml中的每篇文章都与数据库不一致。

1 个答案:

答案 0 :(得分：2)

由于您只有500多篇文章，每5分钟检查一次不应该是个问题。

如果您想要改进这一点，您可以添加另一个表（md5或sha1哈希，文本源）并存储源，检索文本的位置以及一些哈希值。当您检查新文章时，您可以与哈希进行比较，看看您是否已经看过这篇文章。