如何在pyspark上创建分层的分组训练,验证和测试集?

时间:2019-09-19 15:45:28

标签: python validation machine-learning pyspark

我有一个小的数据集(140K),我想将其拆分为验证集,使用目标变量的验证集测试集和另一个用于将这些拆分定型的字段。

1 个答案:

答案 0 :(得分:0)

在Pyspark中,您可以使用randomSplit()函数将数据集分为训练数据集和测试数据集。它最多可以包含两个参数权重和种子。我们使用种子是因为我们想要相同的输出。权重中您可以指定浮点数。如果不等于1,它将对权重进行归一化。数据将进入训练,验证和测试阶段。

示例代码

data.randomSplit([0.8,0.1,0.1],785)