标签: python pyspark apache-spark-sql
我正在尝试编写以前的熊猫代码
df.rdd.map(lambda row : (row.value_counts() >=3).any())
我正在尝试以这种方式在Spark中完成
{{1}}
但是远没有奏效。我收到的pythonRDD在保存到文件时会引发巨大错误。
对于如何实现此功能感到超级困惑,因此欢迎大家提供帮助