情绪分析训练集

时间:2015-04-24 23:07:51

标签: data-mining sentiment-analysis

我正在使用NLTK python进行情绪分析,我的数据大约有200,000条评论。要使用朴素贝叶斯分类器,我需要有标记的训练集。由于我的数据没有标注,我手动创建了约100条评论为正面和负面。但我不认为这是做到这一点的方法。我听说我需要有20%的数据作为训练集来训练分类器并将其应用于其余80%的数据。

有没有更好的方法来为朴素贝叶斯分类器生成训练集?感谢您的帮助,如果问题不明白,请告诉我。

1 个答案:

答案 0 :(得分:1)

我们使用大约100-200个训练样本(取决于具体分类)取得了巨大成功,以相当高的准确度对数十万个段落进行分类。

我们对随机选择的样本进行了手工过滤,以确保它们彼此不太相似(因此代表表达概念的不同方式)。我们使用RapidMiner进行分类而不是NLTK,但我希望算法非常相似。

使用100条评论运行您的分类器,然后针对不在训练集中的100个随机评论运行。检查准确性,如果准确度不在您想要的范围内,请在训练集中添加更多评论。