应用错误收集

肯定不是您正在寻找的确切案例，但您可以查看Solr with Mahout Mahout为主题建模提供LDA支持，可帮助您对数据集中的主题进行分组

主题模型大致是分层贝叶斯模型将每个文档与概率分布相关联 “主题”，反过来又是对词语的分配例如，新闻专线集合中的主题可能包括关于“体育”的单词，例如“棒球”，“本垒打”，“球员”和关于类固醇的文件在棒球中使用可能包括“体育”，“毒品”和“政治”。注意标签“体育”，“毒品”和“政治”都是事后标签由人分配，算法本身只分配将词与概率联系起来。参数估计的任务在这些模型中，要学习主题是什么，以及哪些主题文件按比例使用它们。

因此，如果您在数据集中有移动设备的文档，那么您将获得一组带有黑莓，iPhone，移动等的术语。
这些可能不是类似的术语，但与同一主题有关。

提取类似术语Solr

1 个答案: