我有大量的文本数据集,我从中分离了包含特定 keyword / s 的文本。以下是具有特定关键字的data set。现在我的下一个任务是根据 8情绪和2种情绪对此数据集进行分类,总共会有 10个不同的类。我从NRC emotion lexicon得到了这个想法,它用他们的情感+情感类来保存14182个不同的单词。主要的NRC在http://saifmohammad.com/WebPages/NRC-Emotion-Lexicon.htm
工作。我知道朴素贝叶斯分类,或聚类与二进制分类(例如,两类正面和负面情绪)很好地协调。但是当10级问题出现时,我不知道我将如何进一步处理。我非常感谢你的建议。我正在和R一起完成任务。最后的结果将如下:
|==================================|====================================|
| SentencesWithKeywords | emotion or sentiment class |
-----------------------------------|------------------------------------|
|conflict need resolved turned | anger/anticipation/disgust/fear/joy|
|conversation exchange ideas | negative/positive/sadness/ |
|richer environment | surprise/trust |
| | |
|----------------------------------|------------------------------------|
| sentence2 |anger/anticipation/disgust/fear/joy |
| | negative/positive/sadness/ |
| | surprise/trust |
|----------------------------------|------------------------------------|
答案 0 :(得分:0)
您应该查看插入符号包(http://topepo.github.io/caret/index.html)。你要做的是两种不同的分类(一个多类和一个两类问题)。将文档表示为术语频率向量,并运行您选择的分类算法。支持向量机通常适用于单词方法。