情绪分析训练数据应该均匀分布吗?

时间:2017-01-18 03:47:34

标签: nlp nltk sentiment-analysis

如果我正在训练一个标记数据集的情感分类器,其中大多数文档都是负数,比如说~95%,是否应该使用相同的负面评论分布来训练分类器?如果没有,那么“规范化”数据集的其他选项是什么?

1 个答案:

答案 0 :(得分:0)

您没有说明您拥有什么类型的分类器,但通常您不必规范化训练集的分布。但是,通常数据越多越好但是你应该总是进行盲测以防止过度拟合。

在你的情况下,你会有一个强烈的负面评论分类器,除非你有一个非常大的样本量,一个较弱的正分类器。如果您的样本量足够大,那么无论如何您都可能开始过度拟合负面数据,这并不重要。

简而言之,如果不了解实际的算法和数据集的大小以及数据集中的多样性,就不可能肯定地说出来。

你最好的办法是分割掉10%的训练数据(随机),然后看看分类器在接受90%子集训练后的表现。