Pyspark在列中找到最常使用的值

时间:2019-10-08 12:48:01

标签: dataframe pyspark

我有一个csv文件a.csv,我已使用PySpark读取了该文件并将其转换为数据框

df = spark.read.csv("a.csv")

看起来像这样

col1 col2 col3
a     b    c
a     nn    nn
nn     b    c

如何找到每列的最常用值并将其替换为所有nn值?

预期o / p:

col1   col2   col3
a        b     c

替换后,数据框应如下所示:

col1  col2  col3
a      b      c
a      b      c
a      b      c

0 个答案:

没有答案