我正在处理weka中的分类问题并使用智能524停用词列表。 我在weka中使用NGram tokenizer。它正确地过滤掉unigram中的单词,但是bigram包含停止词,即“东方”,“窗口”。
我之前假设weka可能首先从文本文档中过滤掉所有的停用词,然后将它们转换为unigrams和bigrams但不是那里发生的事情。
我有没有办法从bigram删除停用词,也许我可能需要另一个停用词文件来为bigram?
会从bigram中删除停用词来提高分类器性能吗?
答案 0 :(得分:2)
我猜你可能正在使用StringToWordVector
过滤器来获取一组双字母组合。
如果是这种情况,过滤器会将功能(在您的情况下为bigrams)与停止列表中的元素进行比较。如果您的停止列表由单个单词组成,则任何双字组和任何停用词之间都不会有等价,因此不会删除任何单词。
如果您想从二元组中删除停用词,则必须在应用StringToWordVector
过滤器之前自行执行此操作。
删除停用词的效率取决于每种情况,因此我建议您进行自己的测试。
旧金山