在Weka StringToWord过滤器中保留属性的单词是什么意思。为了获得真实的结果,获得更高的价值是否更好?
答案 0 :(得分:3)
一般情况下,最好将限制设置得尽可能高,以便尽可能多地保留字数。频率较低的单词可以稍微帮助您稍后引发的分类。
对于效率而言,保留太多单词可能看起来不是一个坏主意 - 属性数量越多,学习模型所需的时间就越长。但是,您可以使用带有AttributeSelection
函数和Ranker
度量的InfoGainAttributeEval
过滤器来过滤单词以保留最具预测性的单词。实际上,您可以在AttrivuteSelection过滤器中使用theshold,以保留相对较少的非常具有预测性的单词,并且具有相对频率的独立性。
此外,不要忘记将标志doNotOperatePerClassBasis
设置为true,以使所有单词与所有类保持相关。