pyspark打印每列中出现的字符串数

时间:2019-10-07 01:31:33

标签: python pyspark

我的问题很简单。我有一个14列的数据框weatherAus。我想计算每列中“ NA”的出现。 question与我的类似,但用于计数子字符串。

样本数据框

columnA columnB columnC 
1        3        33
2        5        NA
NA       NA       22
NA       13       31

我可以在一栏中获得“ NA”的数目。但是我希望所有列的计数都返回。

weatherAus.filter(weatherAus["columnC"]=="NA").count()

输出

1

我试图创建一个新列来存储计数。但它返回一个错误。

weatherAus.withColumn('count',weatherAus[['columnA','columnB','columnC']]=="NA").count()

所需的输出样本(输出的格式并不重要,我只需要每列的计数)

          Count
columnA   2
columnB   1
columnC   1

谢谢

0 个答案:

没有答案