文本比较

时间:2012-12-29 12:48:58

标签: php algorithm

我有500多篇文章的数据库,每5分钟PHP脚本检查带有新闻的XML文件。我需要忽略我已经拥有的文章。我需要检查新闻的相似性,因为有些人只是重写它。例如:

有人写道:“你好,我的名字是约翰!你好吗?” 第二个会写:“你好!你好吗?我叫约翰!”

这不是一个好例子,但我有这个问题。为了比较文本,我将使用带状疱疹算法。但它怎么做得更好?我认为每次检查xml中的每篇文章都与数据库不一致。

1 个答案:

答案 0 :(得分:2)

由于您只有500多篇文章,每5分钟检查一次不应该是个问题。

如果您想要改进这一点,您可以添加另一个表(md5或sha1哈希,文本源)并存储源,检索文本的位置以及一些哈希值。当您检查新文章时,您可以与哈希进行比较,看看您是否已经看过这篇文章。