为某些事情工作,我需要比较一些分类技术(支持向量机,神经网络,决策树等)。我在大学的联系人告诉我使用Kaggle数据集https://www.kaggle.com/c/GiveMeSomeCredit/data。
该数据集包括150,000名借款人和100,000名借款人的测试集。对我来说,只有训练集是有用的,因为测试集没有借款人的结果。
我的问题是,我应该使用多少个实例,记住大型数据集的计算工作量。在我用于文献研究的论文中,数据集的大小从500到2500个不等。
答案 0 :(得分:-1)
拆分数据, 90%的培训和剩下的10%的测试:
size = int(len(brown_tagged_sents) * 0.9)
size 4160