如何计算非Double类型的Spark Statistics

时间:2016-02-08 14:13:31

标签: java apache-spark cassandra statistics

spark documenation包括用于计算类型" double"的值的最小值,最大值,平均值统计数据的工具。但是在尝试处理float类型的列值时如何处理spark / java / cassandra场景?

已编辑要显示解决方案:

import org.apache.spark.sql.DataFrame;
import static org.apache.spark.sql.functions.*;

DataFrame df = sqlContext.read()
        .format("org.apache.spark.sql.cassandra")
        .option("table",  "someTable")
        .option("keyspace", "someKeyspace")
        .load();

df.groupBy(col("keyColumn"))
        .agg(min("valueColumn"), max("valueColumn"), avg("valueColumn"))
        .show();

1 个答案:

答案 0 :(得分:1)

施展它。 (double) Variable_here将是变量的值,但是为double。