在词袋模型中,我知道我们应该在训练前删除停用词和标点符号。但是在RNN模型中,如果我想进行文本分类,我是否应该删除停用词?
答案 0 :(得分:2)
这取决于您的模型分类。如果你正在做一些分类由停用词帮助的东西 - 例如某种程度的语法理解 - 那么你需要留下停用词或改变你的停止列表,这样你就不会丢失那些信息。例如,删除所有动词(是,现在,应该是......)可能会破坏一个在某种程度上取决于句子结构的NN。
但是,如果您的分类是基于主题的(如您的词袋参考所示),则以相同的方式处理输入:在烧掉宝贵的培训时间之前删除那些讨厌的停用词。