我创建了一个30,000个标题的语料库。我想使用RNN,LSTM或DNN等先进的监督式机器学习(深度学习)方法来预测这些标题的情绪。
我的问题是:是否可以使用任何标记的数据集(例如IMDB电影评论,亚马逊评论或yelp评论)来训练和测试深度学习模型。 例如,假设我们使用RNN训练和测试IMDB电影评论数据集,则f1得分为92%。
然后,我可以输入我的未标记数据集(30,000个标题)并使用经过训练和测试的模型来预测他们的观点吗?
问这个问题的原因是,我找到了许多博客和教程,其中包含使用深度学习方法进行情感分析的代码。他们使用标签数据集并训练和测试模型以及短期精度或f1得分。没有人走得更远,输入未标记的数据并用他们的模型“预测”情绪。这就是为什么我想知道是否可能。
感谢您的建议。
答案 0 :(得分:2)
好问题,
是的,没有什么可以阻止您针对自己的数据集进行测试。但是,这不是应该这样做的方式:
例如,考虑一下您在Amazon评论上训练模型,然后在Movie评论上对其进行测试。那有什么不同呢?数据的分布是不同的,这可能会有很多副作用。在两组评论中,单词,句子,隐喻的选择都会有所不同。
例如在生命科学域中考虑以下评论:
“ 该药物可部分治愈癌症 ”
如果您已经接受过Amazon Review数据培训,那么这很可能会产生负面情绪,因为 cancer 在其他域中是负面词。因此,有必要针对不同的领域训练不同的情感分类器。
摘要: