标签: pyspark-sql
我没有使用pyspark的经验,并且正在尝试运行以下程序:
avg18 = spark.sql("SELECT AVG(age) FROM df5 WHERE age BETWEEN 18 AND 30")
并获得此输出
DataFrame[avg(CAST(age AS DOUBLE)): double]
我已经更改(或尝试过)数据类型,printScheme将年龄显示为整数。
printScheme
我正在尝试具体说明该组的均值,并使用输出替代NA。