我的数据库中存储了75,000多个文本,每个文本都有10,000多个字符。
大约每两分钟,一个新文本将被插入到数据库中。
目前,我的任务是找到重复的内容。但是,我无法使用比较运算符==
来比较文本,因为在很多情况下,对文本进行了少量更改。
到目前为止,我的想法是使用PHP函数similar_text
将传入文本与所有其他文本进行比较,并为几乎100%相似的文本添加关系。
问题: similar_text
使用非常昂贵的算法。因此,两个文本之间的比较大约。 10,000多个字符需要0.1秒。这意味着将一个文本与所有其他文本进行比较需要75,000 * 0.1 = 7500秒= 125分钟。这太长了,因为在两分钟之后我已经收到了我必须比较的下一个文本。
如何加快这个过程?有没有更快的方法来计算两个文本的相似性?或者您对如何找到类似文本有其他想法?