标签: python validation machine-learning pyspark
我有一个小的数据集(140K),我想将其拆分为验证集,使用目标变量的验证集测试集和另一个用于将这些拆分定型的字段。
答案 0 :(得分:0)
在Pyspark中,您可以使用randomSplit()函数将数据集分为训练数据集和测试数据集。它最多可以包含两个参数权重和种子。我们使用种子是因为我们想要相同的输出。权重中您可以指定浮点数。如果不等于1,它将对权重进行归一化。数据将进入训练,验证和测试阶段。
示例代码
data.randomSplit([0.8,0.1,0.1],785)