PHP性能 - 软件设计 - similar_text()用于很多长字符串

时间:2015-11-18 21:44:45

标签: php sql

我的数据库中存储了75,000多个文本,每个文本都有10,000多个字符。

大约每两分钟,一个新文本将被插入到数据库中。

目前,我的任务是找到重复的内容。但是,我无法使用比较运算符==来比较文本,因为在很多情况下,对文本进行了少量更改。

到目前为止,我的想法是使用PHP函数similar_text将传入文本与所有其他文本进行比较,并为几乎100%相似的文本添加关系。

问题: similar_text使用非常昂贵的算法。因此,两个文本之间的比较大约。 10,000多个字符需要0.1秒。这意味着将一个文本与所有其他文本进行比较需要75,000 * 0.1 = 7500秒= 125分钟。这太长了,因为在两分钟之后我已经收到了我必须比较的下一个文本。

如何加快这个过程?有没有更快的方法来计算两个文本的相似性?或者您对如何找到类似文本有其他想法?

0 个答案:

没有答案