应用错误收集

时间：2017-12-18 09:06:57

标签： python nltk sentiment-analysis senti-wordnet vader

我为我收集的一组Twitter数据执行不同的情绪分析技术。它们是基于词典的（Vader Sentiment和SentiWordNet），因此不需要预先标记的数据。

我想知道是否有一种方法（如F-Score，ROC / AUC）来计算分类器的准确性。我所知道的大多数方法都需要一个目标来比较结果。

答案 0 :(得分：1)

我为研究所做的是随机抽取一些推文并手动将它们标记为正面或负面。然后，您可以使用VADER或SentiWordNet计算标准化分数，并为每个分数计算混淆矩阵，以便为您提供F分数等。

虽然这可能不是一个特别好的测试，因为它取决于您使用的推文样本。例如，您可能会发现SentiWordNet将更多东西归类为VADER，因此如果您的随机样本大部分为负数，则其准确性更高。

答案 1 :(得分：0)

简短的回答是否定的，我不这么认为。（所以，如果其他人发布方法，我会非常感兴趣。）

使用一些无监督的机器学习技术，您可以获得一些错误测量。例如。自动编码器为您提供MSE（表示可以将低维表示重建回原始的高维形式的准确程度）。

但是对于情绪分析，我能想到的是使用多种算法并在同一数据上测量它们之间的协议。如果他们都对特定的情绪达成一致意见，那么你会将其标记为更可靠的预测，他们都不同意你将其标记为不可靠的预测。（这依赖于没有一种算法具有相同的偏差，这可能不太可能。）

通常的方法是标记一些百分比的数据，并假设/希望它代表整个数据。