Bigram在weka中包含停用词?

时间:2014-01-24 19:00:57

标签: machine-learning weka

我正在处理weka中的分类问题并使用智能524停用词列表。 我在weka中使用NGram tokenizer。它正确地过滤掉unigram中的单词,但是bigram包含停止词,即“东方”,“窗口”。

我之前假设weka可能首先从文本文档中过滤掉所有的停用词,然后将它们转换为unigrams和bigrams但不是那里发生的事情。

我有没有办法从bigram删除停用词,也许我可能需要另一个停用词文件来为bigram?

会从bigram中删除停用词来提高分类器性能吗?

1 个答案:

答案 0 :(得分:2)

我猜你可能正在使用StringToWordVector过滤器来获取一组双字母组合。 如果是这种情况,过滤器会将功能(在您的情况下为bigrams)与停止列表中的元素进行比较。如果您的停止列表由单个单词组成,则任何双字组和任何停用词之间都不会有等价,因此不会删除任何单词。 如果您想从二元组中删除停用词,则必须在应用StringToWordVector过滤器之前自行执行此操作。 删除停用词的效率取决于每种情况,因此我建议您进行自己的测试。 旧金山