应用错误收集

Bigram在weka中包含停用词？

时间：2014-01-24 19:00:57

标签： machine-learning weka

我正在处理weka中的分类问题并使用智能524停用词列表。我在weka中使用NGram tokenizer。它正确地过滤掉unigram中的单词，但是bigram包含停止词，即“东方”，“窗口”。

我之前假设weka可能首先从文本文档中过滤掉所有的停用词，然后将它们转换为unigrams和bigrams但不是那里发生的事情。

我有没有办法从bigram删除停用词，也许我可能需要另一个停用词文件来为bigram？

会从bigram中删除停用词来提高分类器性能吗？

1 个答案:

答案 0 :(得分：2)

我猜你可能正在使用StringToWordVector过滤器来获取一组双字母组合。如果是这种情况，过滤器会将功能（在您的情况下为bigrams）与停止列表中的元素进行比较。如果您的停止列表由单个单词组成，则任何双字组和任何停用词之间都不会有等价，因此不会删除任何单词。如果您想从二元组中删除停用词，则必须在应用StringToWordVector过滤器之前自行执行此操作。删除停用词的效率取决于每种情况，因此我建议您进行自己的测试。旧金山