Question

df=sqlContext.read.parquet("/user/data.parquet")

阅读镶木地板文件

df.count()<br/>

计数

8246174
train=df.sample(False,0.8)
test=df.subtract(train)<br/>

train.count()

计算列车集

6594476
test.count()

计算测试集

显然，659w + 11w不等于824w，javaRDD也有这个问题。

Answer 1

似乎我的800w有重复的值...它需要＆＃34;不同的＆＃34;在样本之前