机器学习/情绪分析 - 是否可以有效和安全地从文本中删除停用词?

时间:2016-02-23 04:05:24

标签: machine-learning sentiment-analysis

根据我对文本学习的了解,我们希望阻止和删除停用词以减少数据的熵。但是,像#34;不是"可能会对评论的意义和情绪产生巨大影响。例如:

  

我不喜欢这部电影

变成:

  

我确实喜欢这部电影

如果我只是在文本中留下停用词,那么我假设它们的重要性足够小以至于不重要,那么训练我的分类器只需要更长的时间。

这两个权衡是我认为是准确的,还是两个世界中最好的减少无意义的功能而不会弄乱文本的情绪?

2 个答案:

答案 0 :(得分:2)

是否需要做出全有或全无的决定?如果停用词列表长度仅为几千字,您可以手动浏览列表并仅保留那些可能信息量较低的信息进行情绪分析。例如修剪""和" a",但保持"不"。

我可能会错误地删除您认为可能提供有用信息的停用词列表中的任何字词。如果这个词实际上没有用,那么学习者就会明白这一点。

答案 1 :(得分:1)

首先应将否定词转换为正词,例如我不喜欢 - >我不喜欢。 只有在执行此类过程后,您才可以删除停用词。为此,请使用wordnet.synsets。