randomSplit会返回原始rdd的副本或引用吗?

时间:2015-04-27 18:31:53

标签: python apache-spark

假设我有类似下面的代码

for idx in xrange(0, 10):
    train_test_split = training.randomSplit(weights=[0.75, 0.25])
    train_cv = train_test_split[0]
    test_cv = train_test_split[1]
    # scale train_cv and test_cv

通过缩放train_cvtest_cv,原始数据会受到影响吗?

1 个答案:

答案 0 :(得分:4)

RDD是不可变的。

因此,实际上不可能“改变”RDD只转换它们。 所以,不,原始数据不会受到影响。