我有一个包含699行和11个属性的癌症数据集(包括类属性)。如何将数据集划分为训练和测试数据集? 我知道以下事情。他们是真的吗? (1)选择初始150行进行测试,剩余549用于训练 (2)选择初始549进行训练,剩余150进行测试
我还需要在两个数据集中包含类属性吗?是否还需要另一个名为“VALIDATION DATASET”的数据集? 我正在使用SVM进行分类
答案 0 :(得分:0)
我有一个包含699行和11个属性的癌症数据集(包括类属性)。如何将数据集划分为训练和测试数据集?我知道以下事情。
他们是真的吗? (1)选择初始150行进行测试,剩余549用于训练(2)选择初始549进行训练,剩余150进行测试
对于那个大小的数据集
,以上都没有任何意义单个分割的小数据集如何不够。您将需要多个拆分,例如:
我还需要在两个数据集中包含类属性吗?
两个parst(在每个分割中)都必须有标签
是否还需要另一个名为“VALIDATION DATASET”的数据集?我正在使用SVM进行分类
同样,对于这样的小数据集,您将无法获得良好的验证数据集(并且需要它来为SVM选择有效的超参数),因此您必须执行内部交叉验证(或内部引导等。)