使用分类和聚类算法进行情感分析:哪个更好?

时间:2018-07-11 14:30:36

标签: machine-learning classification cluster-analysis sentiment-analysis

我正在尝试使用Python对歌曲歌词进行情感分析。 在研究了许多带有已知标签(例如,电子邮件分类为垃圾邮件/非垃圾邮件)的简单分类问题之后,我认为歌词情感分析位于“分类”字段中。 在实际编码时,我发现我必须计算每首歌的歌词的情感,并可能在原始数据集中添加一列,将其标记为正或负,或使用实际的情感分数。

这不能使用聚类方法来完成吗?由于我们首先不了解每首歌的类别(正情绪/负情绪),因此该算法将使用情绪分析对数据进行聚类。

2 个答案:

答案 0 :(得分:0)

您正在考虑在没有监督的情况下进行聚类,即无监督的聚类可能会导致准确性较低,因为您实际上不知道将正类和负类分开的分数阈值是多少。因此,首先尝试找到将是分隔班级的参数。使用监督学习来找到阈值

答案 1 :(得分:0)

聚类通常不会产生情感。

它更有可能产生说唱团和说唱团。或者一个代表歌曲长度为偶数的歌词,另一个代表奇数长度的

数据多于情感。那么为什么聚类会产生情绪聚类呢?

如果您想要特定的标签(正面情绪,负面情绪),则需要提供训练数据并使用监督的方法。