什么是StringToWordVector?我所知道的是它将字符串属性转换为多个属性。但是这样做有什么好处,以及StringToWordVector类的对象如何作为FilteredClassifier的过滤器?它是如何成为一个过滤器?
答案 0 :(得分:1)
StringTOWordVector是weka中的过滤器类,它使用WOrdTokenizer类将字符串过滤为N-gram。这有助于我们为分类器提供N-gram字符串。除了标记之外,它还提供其他功能,如删除停用词,使用TFIDF加权单词,输出单词计数而不仅仅指示单词是否存在,修剪率,词干,单词的小写转换等。此类的详细说明可以是发现在http://weka.sourceforge.net/doc.dev/weka/filters/unsupervised/attribute/StringToWordVecing.html所以基本上它提供了基本的功能,可以帮助我们在训练前根据需求微调训练集。
但是,如果想要与培训一起进行测试的人必须使用批量过滤或过滤分类器来确保列车和列车的兼容性。测试集。这是因为如果我们通过火车和通过StringToWordVector分别进行测试,然后它将为火车和火车生成不同的词汇。测试集。决定哪种技术应该选择批量填充&过滤分类器,按照Nihil Obstat的帖子http://jmgomezhidalgo.blogspot.in/2013/01/text-mining-in-weka-chaining-filters.html
希望这有帮助。