我正在开展一个基于情感分析的产品分析学校项目。我一直在寻找一个训练数据集很长一段时间,到目前为止我能找到的是一个电影评论的数据集。我的问题是,我可以使用这个数据集来训练分类器,即它会对分类的准确性产生影响吗?如果是这样,这里的任何人都知道我可以在哪里获得产品评论的免费数据集吗?
答案 0 :(得分:1)
我假设你正在使用一些文字模型,比如单词模型包。
从我的实验中,在从一个域更改为另一个域时,通常不会获得好结果(即使列车数据集和测试都是产品,但属于不同的类别! )。 从逻辑上考虑,快速变热的烤箱通常表示好的产品。笔记本电脑也一样吗?
几年前,当我尝试使用它时,我使用亚马逊评论作为列车集并测试我的算法。
评论简短,信息量大,足以达到约80%的准确率。地面'真相是星系,其中1-2星是“负面”,“3星” - “中性”,“4-5星”是“正面”。
我用珍珠script from esuli.it来抓住亚马逊的评论。