应用错误收集

我有一个包含699行和11个属性的癌症数据集（包括类属性）。如何将数据集划分为训练和测试数据集？我知道以下事情。

他们是真的吗？（1）选择初始150行进行测试，剩余549用于训练（2）选择初始549进行训练，剩余150进行测试

对于那个大小的数据集

，以上都没有任何意义

单个分割的小数据集如何不够。您将需要多个拆分，例如：

我还需要在两个数据集中包含类属性吗？

两个parst（在每个分割中）都必须有标签

是否还需要另一个名为“VALIDATION DATASET”的数据集？我正在使用SVM进行分类

同样，对于这样的小数据集，您将无法获得良好的验证数据集（并且需要它来为SVM选择有效的超参数），因此您必须执行内部交叉验证（或内部引导等。）