我正在使用Weka使用 StringToWordVector 类创建Term Document Matrix。但是,无论输入语料库的大小如何,我只能看到500个术语/" num属性"输出时,当我使用R tm 包时,同一语料库生成549条款。
我尝试更改 wordsToKeep 设置,但这不会影响生成的术语总数。对我来说,似乎有一些默认设置我需要更改以增加生成的术语。但是,我没有找到这样的配置。
我正在使用Weka 3.6.11和NGramTokenizer。
如何让Weka生成更多条款?
答案 0 :(得分:0)
我升级到Weka 3.7.11并尝试了这个并且它有效。
StringToWordVector filter = new StringToWordVector();
filter.setWordsToKeep(Integer.MAX_VALUE);