应用错误收集

我创建了一个30,000个标题的语料库。我想使用RNN，LSTM或DNN等先进的监督式机器学习（深度学习）方法来预测这些标题的情绪。

我的问题是：是否可以使用任何标记的数据集（例如IMDB电影评论，亚马逊评论或yelp评论）来训练和测试深度学习模型。例如，假设我们使用RNN训练和测试IMDB电影评论数据集，则f1得分为92％。

然后，我可以输入我的未标记数据集（30,000个标题）并使用经过训练和测试的模型来预测他们的观点吗？

问这个问题的原因是，我找到了许多博客和教程，其中包含使用深度学习方法进行情感分析的代码。他们使用标签数据集并训练和测试模型以及短期精度或f1得分。没有人走得更远，输入未标记的数据并用他们的模型“预测”情绪。这就是为什么我想知道是否可能。

感谢您的建议。

好问题，

是的，没有什么可以阻止您针对自己的数据集进行测试。但是，这不是应该这样做的方式：

例如，考虑一下您在Amazon评论上训练模型，然后在Movie评论上对其进行测试。那有什么不同呢？数据的分布是不同的，这可能会有很多副作用。在两组评论中，单词，句子，隐喻的选择都会有所不同。

例如在生命科学域中考虑以下评论：

“ 该药物可部分治愈癌症 ”

如果您已经接受过Amazon Review数据培训，那么这很可能会产生负面情绪，因为 cancer 在其他域中是负面词。因此，有必要针对不同的领域训练不同的情感分类器。

摘要：