我想从数据集中提取所有相似的术语,然后使用否定约束进行查询。例如。
对于索引集,我怎么能推断出Blackberry和诺基亚是两个相似的术语。或者说是2种类似的商品。
这可以通过solr来实现。 ? 这不是同义词。但我需要实现相似性约束。
答案 0 :(得分:0)
肯定不是您正在寻找的确切案例,但您可以查看Solr with Mahout Mahout为主题建模提供LDA支持,可帮助您对数据集中的主题进行分组
主题模型大致是分层贝叶斯模型 将每个文档与概率分布相关联 “主题”,反过来又是对词语的分配 例如,新闻专线集合中的主题可能包括关于“体育”的单词, 例如“棒球”,“本垒打”,“球员”和关于类固醇的文件 在棒球中使用可能包括“体育”,“毒品”和“政治”。注意 标签“体育”,“毒品”和“政治”都是事后标签 由人分配,算法本身只分配 将词与概率联系起来。参数估计的任务 在这些模型中,要学习主题是什么,以及哪些主题 文件按比例使用它们。
因此,如果您在数据集中有移动设备的文档,那么您将获得一组带有黑莓,iPhone,移动等的术语。
这些可能不是类似的术语,但与同一主题有关。