我有一个csv文件a.csv,我已使用PySpark读取了该文件并将其转换为数据框
df = spark.read.csv("a.csv")
看起来像这样
col1 col2 col3
a b c
a nn nn
nn b c
如何找到每列的最常用值并将其替换为所有nn值?
预期o / p:
col1 col2 col3
a b c
替换后,数据框应如下所示:
col1 col2 col3
a b c
a b c
a b c