机器学习训练数据集的大小应该是多少?

时间:2016-06-09 09:33:45

标签: twitter machine-learning nlp datumbox

1)我想在Twitter推特上进行情绪分析。所以,我选择使用 datumbox-framework 。我很怀疑我的训练样本的大小应该是多少? &安培;如果我收集正面,负面,中立的训练样本,我应该为所有训练样例保持相同的大小吗? (也就是说,我可以收集10个pos,5个neg,15个中性作为我的训练集,或者我应该收集并保持所有pos,neg,中立的相同大小pos = 10; neg = 10;中立= 10在我的训练集中)算法I用于推特情绪。 海军贝叶斯

2)训练数据集是否有任何大小限制?

1 个答案:

答案 0 :(得分:1)

培训集:用于构建模型的数据集。 理想情况下,这些数据无论如何都应该有偏差,并且应该包含将来可能出现的所有案例的可能性。

训练集越大,结果越好。这就是训练集中的测试用例,模型越好。因此,尽量多掩盖pos,neg或者中性点。

没有理想的训练集大小。并且可能永远不会有一个训练集可以正确预测100%的测试用例,因为 系统不理解讽刺 :D

训练集没有大小限制。

注意:训练集必须是随机的,你不能使用10pos,2neg,3中立等,因为这会使它有偏见。

一般建议:使用60-70%用于培训,其余用于验证&测试