如何从UCI的给定标准数据集生成训练和测试数据集

时间:2016-07-01 13:15:50

标签: svm libsvm

我有一个包含699行和11个属性的癌症数据集(包括类属性)。如何将数据集划分为训练和测试数据集? 我知道以下事情。他们是真的吗? (1)选择初始150行进行测试,剩余549用于训练 (2)选择初始549进行训练,剩余150进行测试

我还需要在两个数据集中包含类属性吗?是否还需要另一个名为“VALIDATION DATASET”的数据集? 我正在使用SVM进行分类

1 个答案:

答案 0 :(得分:0)

  

我有一个包含699行和11个属性的癌症数据集(包括类属性)。如何将数据集划分为训练和测试数据集?我知道以下事情。

     

他们是真的吗? (1)选择初始150行进行测试,剩余549用于训练(2)选择初始549进行训练,剩余150进行测试

对于那个大小的数据集

,以上都没有任何意义

单个分割的小数据集如何不够。您将需要多个拆分,例如:

  • 交叉验证(10个分裂就足够了)
  • bootstrap方法(如632 +)
  • maaaany totaly random splits(> 50)
  

我还需要在两个数据集中包含类属性吗?

两个parst(在每个分割中)都必须有标签

  

是否还需要另一个名为“VALIDATION DATASET”的数据集?我正在使用SVM进行分类

同样,对于这样的小数据集,您将无法获得良好的验证数据集(并且需要它来为SVM选择有效的超参数),因此您必须执行内部交叉验证(或内部引导等。)