在weka中StringToWordVector过滤器中保留属性的单词

时间:2013-10-05 00:48:40

标签: weka

在Weka StringToWord过滤器中保留属性的单词是什么意思。为了获得真实的结果,获得更高的价值是否更好?

1 个答案:

答案 0 :(得分:3)

一般情况下,最好将限制设置得尽可能高,以便尽可能多地保留字数。频率较低的单词可以稍微帮助您稍后引发的分类。

对于效率而言,保留太多单词可能看起来不是一个坏主意 - 属性数量越多,学习模型所需的时间就越长。但是,您可以使用带有AttributeSelection函数和Ranker度量的InfoGainAttributeEval过滤器来过滤单词以保留最具预测性的单词。实际上,您可以在AttrivuteSelection过滤器中使用theshold,以保留相对较少的非常具有预测性的单词,并且具有相对频率的独立性。

此外,不要忘记将标志doNotOperatePerClassBasis设置为true,以使所有单词与所有类保持相关。