*在pyspark列表理解中

时间:2017-06-28 07:17:22

标签: pyspark

我现在正在阅读学习PySpark ,在本书中,作者首先创建了一个数据框:

df_miss = spark.createDataFrame([(1, 143.5, 5.6, 28, 'M', 100000), 
                             (2, 167.2, 5.4, 45, 'M', None), 
                             (3, None , 5.2, None, None, None), 
                             (4, 144.5, 5.9, 33, 'M', None), 
                             (5, 133.2, 5.7, 54, 'F', None), 
                             (6, 124.1, 5.2, None, 'F', None),
                             (7, 129.2, 5.3, 42, 'M', 76000), ], 
                            [' id', 'weight', 'height', 'age','gender', 'income'])

然后他使用这种方法计算缺失值的百分比:

df_miss.agg(*[(1 - (fn.count( c) / fn.count('*'))).alias( c + '_missing') 
              for c in df_miss.columns ]).show()

两个*是什么,特别是第二个?有没有关于这种表达的资源?非常感谢!

0 个答案:

没有答案