应用错误收集

我的数据库中存储了75,000多个文本，每个文本都有10,000多个字符。

大约每两分钟，一个新文本将被插入到数据库中。

目前，我的任务是找到重复的内容。但是，我无法使用比较运算符==来比较文本，因为在很多情况下，对文本进行了少量更改。

到目前为止，我的想法是使用PHP函数similar_text将传入文本与所有其他文本进行比较，并为几乎100％相似的文本添加关系。

问题： similar_text使用非常昂贵的算法。因此，两个文本之间的比较大约。 10,000多个字符需要0.1秒。这意味着将一个文本与所有其他文本进行比较需要75,000 * 0.1 = 7500秒= 125分钟。这太长了，因为在两分钟之后我已经收到了我必须比较的下一个文本。

如何加快这个过程？有没有更快的方法来计算两个文本的相似性？或者您对如何找到类似文本有其他想法？