应用错误收集

过滤PySpark数据框使顺序混乱

时间：2018-07-28 19:11:54

标签： apache-spark pyspark apache-spark-sql pyspark-sql

有人知道为什么会这样吗？

当我对其进行过滤时：

编辑：这就是我添加最后两列的方式。在我看来，因为我使用pandas_udf生成了最后两列，所以有些事情变得疯狂了，而我可以毫无问题地过滤出前四列，这是我使用普通udf构造的。

@pandas_udf('string', PandasUDFType.SCALAR)
def blocking(ids,x,y):
....
return pd.Series(final)

df4 = df3.withColumn('blocking_index', \
blocking(df3.id,df3.ratepayer,df3.CharityName))

0 个答案:

没有答案