应用错误收集

时间：2011-02-04 19:55:10

标签： php mysql artificial-intelligence

我有一个包含2.000.000条消息的数据库。当用户收到消息时，我需要根据单词的出现在我的数据库中查找相关消息。

我曾尝试运行批处理来汇总我的数据库： 1 - 存储所有消息的所有单词（a，a，the，for ...除外）。 2 - 在所有消息和其中包含的单词之间建立关联（我还会在消息中显示该单词的频率。）

然后，当我收到一条消息时： 1 - 我解析单词（看起来像我的批处理的第一步。） 2 - 在数据库中执行查询以获取按重合词数排序的消息。

然而，更新我的单词库和查询以获取类似消息的过程非常繁重且缓慢。对于3000字节的消息，字基更新持续~1.2111秒。对于具有相同大小的消息，查询类似消息持续约9.8秒。

数据库调优已经完成，代码工作正常。

我需要一个更好的算法来完成它。

有什么想法吗？

答案 0 :(得分：2)

我建议使用设置Apache Solr（http://lucene.apache.org/solr/）。设置和索引数百万个文档非常容易。 Solr处理所有必要的优化（尽管它是开源的，因此如果您认为需要，可以调整它）。

然后您可以使用可用的API进行查询，我更喜欢Java API SolrJ（http://wiki.apache.org/solr/Solrj）。我通常会在一秒钟内看到返回的结果。

Solr通常优于MySQL进行文本索引。

答案 1 :(得分：1)

相似性匹配仍然是一个特别复杂的领域，但你可以看看MySQL参考中的full text matching，特别是一些更复杂的例子。

您应该可以运行一次性工作来为所有当前消息构建相似性矩阵，然后运行每晚批处理以向相似性矩阵添加新消息。