过滤PySpark数据框使顺序混乱

时间:2018-07-28 19:11:54

标签: apache-spark pyspark apache-spark-sql pyspark-sql

有人知道为什么会这样吗?

enter image description here

当我对其进行过滤时:

enter image description here

编辑:这就是我添加最后两列的方式。在我看来,因为我使用pandas_udf生成了最后两列,所以有些事情变得疯狂了,而我可以毫无问题地过滤出前四列,这是我使用普通udf构造的。

@pandas_udf('string', PandasUDFType.SCALAR)
def blocking(ids,x,y):
....
return pd.Series(final)

df4 = df3.withColumn('blocking_index', \
blocking(df3.id,df3.ratepayer,df3.CharityName))

0 个答案:

没有答案