我目前正在研究我的最后一年研究项目,该项目是一个分析在线发现的旅行评论的应用程序,并通过进行方面级别的情绪分析,给出特定旅游景点的情绪评分。 / p>
我有一个来自着名旅游网站的新数据集,该数据集不允许将其API用于研究/学术目的。 (长号)
我的主管说我可能需要在将数据集用于上述目的之前对其进行注释。关于在这种情况下数据注释的含义,我感到很困惑。有人可以解释一下数据集注释时到底发生了什么,以及它如何帮助完成情绪分析?
有人告诉我,我可能需要获得两个/三个人类注释器,并对数据进行注释以减少其偏差。我的时间紧迫,我想知道是否有任何工具可以帮我完成它?如果是这样,使用这些工具对人类注释器的影响是什么?我还想为你推荐的这类工具提出建议。
我非常感谢对我的问题的详细解释,因为我坚持我的项目因此而进入下一步。
提前谢谢。
答案 0 :(得分:2)
对于第一近似,机器学习算法(例如,情绪分析算法)学习通过收集执行任务的人的许多示例然后模仿它们来执行人当前执行的任务。当您的主管谈论"注释时,"他们正在谈论收集人类做情感注释任务的这些例子:为情绪注释句子。也就是说,收集由人类判断的句子和他们的情绪。如果没有这个,那么程序就没有什么可以学习的东西了,而且你一直希望程序可以从零开始给你什么东西 - 它永远都不会。
也就是说,有收集此类数据的工具,或者至少有帮助。 Amazon Mechanical Turk和其他众包平台是此类数据收集的良好资源。您还可以查看以下内容:http://www.crowdflower.com/type-sentiment-analysis。