在apache mahout中的nGrams

时间:2011-12-20 10:17:13

标签: mahout bayesian n-gram

我正在通过apache mahout运行朴素的贝叶斯分类器算法。我们可以选择在训练和运行算法实例时设置克大小。

将我的n-Gram大小从1更改为2,会彻底更改生成的分类。为什么会这样? n-gram的大小如何使结果发生剧烈变化?

1 个答案:

答案 0 :(得分:6)

1克是单词。 2克(或双字母)是成对的单词。这就像根据“美国”和“国家”或“美国”的存在对文件进行分类。使用bigrams可能会产生一些空间和性能影响,但可能会产生比1克更好的结果。