目前我正在研究数据挖掘,文本比较,并找到了这个:https://en.wikipedia.org/wiki/Cosine_similarity。
由于我已成功实现此算法来比较两个字符串,我决定尝试一些更复杂的任务来实现。 我迭代了我的数据库,其中包含大约 250k 文档,并将DB中的一个随机文档与该数据库中的整个文档进行比较。
比较所有这些项目的时间:316.35898590088秒,那个,> 5分钟比较所有250k文件!
由于这个结果,出现了许多问题,我不想提出一些建议。 为清楚起见,我首先要描述一些可能有用的细节。
问题
答案 0 :(得分:1)
PHP和MySQL都是你可能做出的最糟糕的选择。
高效的余弦相似性是Lucene的核心。关键加速技术是cooressed倒排索引。但你真的不想在PHP中重新实现它们......