df=sqlContext.read.parquet("/user/data.parquet")
阅读镶木地板文件
df.count()<br/>
计数
8246174
train=df.sample(False,0.8)
test=df.subtract(train)<br/>
train.count()
计算列车集
6594476
test.count()
计算测试集
117790
显然,659w + 11w不等于824w,javaRDD也有这个问题。
答案 0 :(得分:0)
似乎我的800w有重复的值...它需要&#34;不同的&#34;在样本之前