我的数据集应该用于分类实验的大小是多少?

时间:2014-08-01 12:08:52

标签: machine-learning analytics weka data-mining

为某些事情工作,我需要比较一些分类技术(支持向量机,神经网络,决策树等)。我在大学的联系人告诉我使用Kaggle数据集https://www.kaggle.com/c/GiveMeSomeCredit/data

该数据集包括150,000名借款人和100,000名借款人的测试集。对我来说,只有训练集是有用的,因为测试集没有借款人的结果。

我的问题是,我应该使用多少个实例,记住大型数据集的计算工作量。在我用于文献研究的论文中,数据集的大小从500到2500个不等。

  • 你会使用多少个实例?

1 个答案:

答案 0 :(得分:-1)

拆分数据, 90%的培训和剩下的10%的测试:

size = int(len(brown_tagged_sents) * 0.9)
size 4160