是否可以使用监督式深度学习方法预测情绪?

时间:2020-10-22 11:09:27

标签: python deep-learning neural-network sentiment-analysis

我创建了一个30,000个标题的语料库。我想使用RNN,LSTM或DNN等先进的监督式机器学习(深度学习)方法来预测这些标题的情绪。

我的问题是:是否可以使用任何标记的数据集(例如IMDB电影评论,亚马逊评论或yelp评论)来训练和测试深度学习模型。 例如,假设我们使用RNN训练和测试IMDB电影评论数据集,则f1得分为92%。

然后,我可以输入我的未标记数据集(30,000个标题)并使用经过训练和测试的模型来预测他们的观点吗?

问这个问题的原因是,我找到了许多博客和教程,其中包含使用深度学习方法进行情感分析的代码。他们使用标签数据集并训练和测试模型以及短期精度或f1得分。没有人走得更远,输入未标记的数据并用他们的模型“预测”情绪。这就是为什么我想知道是否可能。

感谢您的建议。

1 个答案:

答案 0 :(得分:2)

好问题,

是的,没有什么可以阻止您针对自己的数据集进行测试。但是,这不是应该这样做的方式:

例如,考虑一下您在Amazon评论上训练模型,然后在Movie评论上对其进行测试。那有什么不同呢?数据的分布是不同的,这可能会有很多副作用。在两组评论中,单词,句子,隐喻的选择都会有所不同。

例如在生命科学域中考虑以下评论:

该药物可部分治愈癌症

如果您已经接受过Amazon Review数据培训,那么这很可能会产生负面情绪,因为 cancer 在其他域中是负面词。因此,有必要针对不同的领域训练不同的情感分类器。

摘要:

  1. 尽可能尝试使用来自同一数据源的数据。
  2. 对相同的域数据进行训练和预测。