使用机器学习算法对python中的推文进行感伤分析

时间:2013-06-13 09:37:18

标签: data-analysis sentiment-analysis

说我下载'n'个推文并删除长度为< = 2的单词,然后将每个推文标记为'Negative'或'Non negative',这样就形成了我的训练集。

但是我的数据集中没有像Iris数据集如何具有萼片长度,萼片宽度,花瓣长度和花瓣宽度这样明确定义的属性,而只是每个单词都成为一个属性而不同的示例推文将具有不同的数量属性。

我可以使用此数据集并将我的问题视为分类问题吗?并尝试预测新推文是负面还是非负面?

或者您认为预测推文是否为否定的最佳方式是什么?

1 个答案:

答案 0 :(得分:4)

您正在描述标准文本分类问题。在此设置中,要素集是(有限的)单词集,而不是Sepal长度,宽度,......

因此,每个文档都表示所有这些特征(所有文档具有相同数量的特征),但大多数值将为零,从而创建一个非常稀疏的向量。

这是预测极性/情绪的最佳方式,但您应该更多地提高您对该主题的了解。我建议阅读Sebastiani's survey on Text Classification

此致