我有一个包含2.000.000条消息的数据库。当用户收到消息时,我需要根据单词的出现在我的数据库中查找相关消息。
我曾尝试运行批处理来汇总我的数据库: 1 - 存储所有消息的所有单词(a,a,the,for ...除外)。 2 - 在所有消息和其中包含的单词之间建立关联(我还会在消息中显示该单词的频率。)
然后,当我收到一条消息时: 1 - 我解析单词(看起来像我的批处理的第一步。) 2 - 在数据库中执行查询以获取按重合词数排序的消息。
然而,更新我的单词库和查询以获取类似消息的过程非常繁重且缓慢。对于3000字节的消息,字基更新持续~1.2111秒。对于具有相同大小的消息,查询类似消息持续约9.8秒。
数据库调优已经完成,代码工作正常。
我需要一个更好的算法来完成它。
有什么想法吗?
答案 0 :(得分:2)
我建议使用设置Apache Solr(http://lucene.apache.org/solr/)。设置和索引数百万个文档非常容易。 Solr处理所有必要的优化(尽管它是开源的,因此如果您认为需要,可以调整它)。
然后您可以使用可用的API进行查询,我更喜欢Java API SolrJ(http://wiki.apache.org/solr/Solrj)。我通常会在一秒钟内看到返回的结果。
Solr通常优于MySQL进行文本索引。
答案 1 :(得分:1)
相似性匹配仍然是一个特别复杂的领域,但你可以看看MySQL参考中的full text matching,特别是一些更复杂的例子。
您应该可以运行一次性工作来为所有当前消息构建相似性矩阵,然后运行每晚批处理以向相似性矩阵添加新消息。