我正在使用我收集的一些推文构建情绪分析程序。我收集的标记数据将通过一个神经网络,将它们分为两类,正面和负面。
数据仍在标记中。到目前为止,我观察到阳性类别的观察数量非常少。
我的训练集中的阳性类别记录可能约为训练数据集的5%(同样的比例也可以反映在人群中)。
这会在最终的“程序”中产生问题吗? 数据集的大小约为5000条记录。
答案 0 :(得分:4)
是的,是的,它可以。有两件事需要考虑:
答案 1 :(得分:2)
如果没有不同类的拆分,您可能需要在损失函数中引入权重,以便较小类中的错误被认为更重要。
另一种解决方案,因为根据您的问题,5000个样本可能会或可能不是很多数据,可能是对更多数据集进行采样。您基本上采用这组5000个样本,并从中采样数据点,以便您拥有一个甚至可以拆分类的新数据集。这意味着新数据集仅为原始数据集的10%。但它在各类之间平均分配。您可以多次重做此抽样,最终得到几个数据集,在bootstrap aggregating中很有用。