标签: mahout bayesian n-gram
我正在通过apache mahout运行朴素的贝叶斯分类器算法。我们可以选择在训练和运行算法实例时设置克大小。
将我的n-Gram大小从1更改为2,会彻底更改生成的分类。为什么会这样? n-gram的大小如何使结果发生剧烈变化?
答案 0 :(得分:6)
1克是单词。 2克(或双字母)是成对的单词。这就像根据“美国”和“国家”或“美国”的存在对文件进行分类。使用bigrams可能会产生一些空间和性能影响,但可能会产生比1克更好的结果。