提取类似术语Solr

时间:2013-03-21 02:02:49

标签: solr

我想从数据集中提取所有相似的术语,然后使用否定约束进行查询。例如。

对于索引集,我怎么能推断出Blackberry和诺基亚是两个相似的术语。或者说是2种类似的商品。

这可以通过solr来实现。 ? 这不是同义词。但我需要实现相似性约束。

1 个答案:

答案 0 :(得分:0)

肯定不是您正在寻找的确切案例,但您可以查看Solr with Mahout Mahout为主题建模提供LDA支持,可帮助您对数据集中的主题进行分组

  

主题模型大致是分层贝叶斯模型   将每个文档与概率分布相关联   “主题”,反过来又是对词语的分配   例如,新闻专线集合中的主题可能包括关于“体育”的单词,   例如“棒球”,“本垒打”,“球员”和关于类固醇的文件   在棒球中使用可能包括“体育”,“毒品”和“政治”。注意   标签“体育”,“毒品”和“政治”都是事后标签   由人分配,算法本身只分配   将词与概率联系起来。参数估计的任务   在这些模型中,要学习主题是什么,以及哪些主题   文件按比例使用它们。

因此,如果您在数据集中有移动设备的文档,那么您将获得一组带有黑莓,iPhone,移动等的术语。
这些可能不是类似的术语,但与同一主题有关。