应用错误收集

Pyspark在列中找到最常使用的值

时间：2019-10-08 12:48:01

标签： dataframe pyspark

我有一个csv文件a.csv，我已使用PySpark读取了该文件并将其转换为数据框

df = spark.read.csv("a.csv")

看起来像这样

col1 col2 col3
a     b    c
a     nn    nn
nn     b    c

如何找到每列的最常用值并将其替换为所有nn值？

预期o / p：

col1   col2   col3
a        b     c

替换后，数据框应如下所示：

col1  col2  col3
a      b      c
a      b      c
a      b      c

0 个答案:

没有答案