使用RDD在Spark中应用熊猫Lambda

时间:2020-10-13 19:33:33

标签: python pyspark apache-spark-sql

我正在尝试编写以前的熊猫代码

df.rdd.map(lambda row : (row.value_counts() >=3).any())

我正在尝试以这种方式在Spark中完成

{{1}}

但是远没有奏效。我收到的pythonRDD在保存到文件时会引发巨大错误。

对于如何实现此功能感到超级困惑,因此欢迎大家提供帮助

0 个答案:

没有答案