用R语言在文本中的情感分类

时间:2016-02-13 13:32:07

标签: data-mining text-mining sentiment-analysis text-classification emotion

我有大量的文本数据集,我从中分离了包含特定 keyword / s 的文本。以下是具有特定关键字的data set。现在我的下一个任务是根据 8情绪和2种情绪对此数据集进行分类,总共会有 10个不同的类。我从NRC emotion lexicon得到了这个想法,它用他们的情感+情感类来保存14182个不同的单词。主要的NRC在http://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm工作。我知道朴素贝叶斯分类,或聚类与二进制分类(例如,两类正面和负面情绪)很好地协调。但是当10级问题出现时,我不知道我将如何进一步处理。我非常感谢你的建议。我正在和R一起完成任务。最后的结果将如下:

|==================================|====================================|
|   SentencesWithKeywords          |      emotion or sentiment class    |
-----------------------------------|------------------------------------|
|conflict need resolved turned     | anger/anticipation/disgust/fear/joy|
|conversation  exchange ideas      |     negative/positive/sadness/     | 
|richer environment                |            surprise/trust          | 
|                                  |                                    |
|----------------------------------|------------------------------------|
|     sentence2                    |anger/anticipation/disgust/fear/joy |
|                                  |     negative/positive/sadness/     |
|                                  |           surprise/trust           |
|----------------------------------|------------------------------------|

1 个答案:

答案 0 :(得分:0)

您应该查看插入符号包(http://topepo.github.io/caret/index.html)。你要做的是两种不同的分类(一个多类和一个两类问题)。将文档表示为术语频率向量,并运行您选择的分类算法。支持向量机通常适用于单词方法。