我正在尝试创建一个情绪分析工具来分析曼联足球俱乐部三天内的推文,并确定人们是正面还是负面地看待它们。 我目前正在使用本指南作为指导(Java是我的编码语言)
http://cavajohn.blogspot.co.uk/2013/05/how-to-sentiment-analysis-of-tweets.html
我正在使用Apache Flume将我的推文下载到Apache Hadoop中,然后打算使用Apache Hive来查询推文。我也可以使用Apache Oozie有效地对推文进行分区。
在我上面发布的链接中,提到我需要一个训练数据集来训练我将创建的分类器来分析推文。提供的样本分类器有大约5000条推文。当我为uni的夏季项目做这个时,我觉得我应该创建自己的数据集。
我应该使用什么最小数量的推文来使这个分类器有效?有推荐的号码吗?例如,如果我手动分析了一百条推文,或五百或一千条推文,它会有效吗?
答案 0 :(得分:1)
训练分类器没有确切的数字。您可以拥有一个大型数据集,其中所有数据都具有相同的属性,因此分类器将记忆模式,或者,您可以拥有一个没有大型数据集的良好实例,因此您的分类器将获得更好的结果。
您可以使用他们在帖子中为您提供的样本数据集来训练分类器,并使用cross validation以获得最佳分类器。
获得最佳分类器后,您可以将分类器与帖子中提供的分类器进行比较,并选择更好的分类器。
答案 1 :(得分:0)