为什么spark中的sample和subtract方法给出了这样的结果

时间:2016-04-05 03:24:48

标签: python apache-spark pyspark spark-dataframe apache-spark-mllib

df=sqlContext.read.parquet("/user/data.parquet")

阅读镶木地板文件

df.count()<br/>

计数

8246174
train=df.sample(False,0.8)
test=df.subtract(train)<br/>

train.count()

计算列车集

6594476
test.count()

计算测试集

117790
显然,659w + 11w不等于824w,javaRDD也有这个问题。

1 个答案:

答案 0 :(得分:0)

似乎我的800w有重复的值...它需要&#34;不同的&#34;在样本之前