Pyspark的'PipelinedRDD'对象没有属性'show'

时间:2016-12-15 00:56:51

标签: attributes pyspark

我 我想找出df中不在df1中的所有项目,df1中的项目,但df中的项目

    df =sc.parallelize([1,2,3,4 ,5 ,6,7,8,9])
    df1=sc.parallelize([4 ,5 ,6,7,8,9,10])
    df2 = df.subtract(df1)
    df2.show()
    df3 = df1.subtract(df)
    df3.show()

只想检查结果,看看我是否理解了这个功能。 但得到了这个错误         'PipelinedRDD'对象没有属性'show' 有什么建议吗?

2 个答案:

答案 0 :(得分:11)

print(df2.take(10))

df.show()仅适用于spark DataFrame

答案 1 :(得分:-1)

使用createDataFrame

将rdd转换为spark数据帧