情感分析:使用数据集(IMDB评论)来训练神经网络,并使用它来预测完全不同的数据集(政治文章)

时间:2019-09-18 11:16:42

标签: machine-learning neural-network nlp sentiment-analysis

我们需要分析与给定国家的政治动荡有关的许多文章(诸如可能举行联盟/临时选举等)。 问题是我找不到任何可以插入到神经网络(TensorFlow中的CNN / LSTM)以便对其进行实时事件(新闻,推文等)进行监督的标记数据集。

我相信我们不能使用IMDB电影评论等公开可用的大数据集来训练模型以准确识别和预测此类事件的发生(或者可以吗?)。

还有其他方法可以解决此问题吗?

我还考虑过使用无监督学习-像VADER这样的库-但这给了我一个更通用的情感分数,而不是调和与问题相关的特定语料库。

1 个答案:

答案 0 :(得分:0)

分析深度学习模型以进行情感分析的论文(Error hoverhttps://arxiv.org/pdf/1809.08037.pdf)显示,网络确实学习了特定于域的信息。

例如,如果您在IMDB数据集上训练模型,则名称​​ Tarantino 总是与积极情绪相关联。如果您说:“就像塔伦蒂诺。”该模型对它进行了积极的分类,尽管实际上不应在政治领域进行。

如果有时间玩,可以尝试收集尽可能多的情感数据集,并尝试在BERT上训练简单的分类器,看看它是否有效。

如果您需要快速的解决方案,您仍然可以使用某种机器前学习方法,并依靠情感词典。效果出奇的好。