Pyspark - 在RDD上的randomSplit w /替换或没有?

时间:2016-10-26 14:59:43

标签: pyspark

我需要将RDD拆分为训练,验证和测试集 - 我正在使用randomSplit方法来完成它。我有三个问题:

  1. 这是用于分割成测试,验证,训练集的最佳方法吗?
  2. 我认为这是真正分裂数据(没有替换的采样)而不是采取三个独立样本(替换采样)?
  3. (trainData,valData,testData)= dataRDD.randomSplit([0.6,0.2,0.2])

1 个答案:

答案 0 :(得分:1)

  • 这是在Spark中拆分数据的有效方法。
  • 它创建的数据拆分不是独立的样本。