所以我正在一个项目中,我必须处理大量的亚马逊评论。我该如何将每次评论缩短为仅两个基本词?只喜欢带有强烈正面和负面含义的单词。谢谢!
答案 0 :(得分:0)
在nlp中,这通常称为情感分析。 首先,由于模棱两可,寻找肯定或不肯定的词可能会具有挑战性。在亚马逊评论中,您也获得了评分-这意味着您的数据被标记了(因此1颗星的评分表示该评论为负面,而5颗星的评分则是正面评论)。
我建议不要去寻找与情感成正比的单词,而去掉那些不会影响情感的单词。即清除数据。 在nlp中,最常见的方法是阻止和删除停用词。 完成这两个步骤后,您将消除了大部分噪音。 另外,从数据中提取特征也会使您受益,一个共同的特征称为tf-idf。