Question

spark documenation包括用于计算类型＆＃34; double＆＃34;的值的最小值，最大值，平均值统计数据的工具。但是在尝试处理float类型的列值时如何处理spark / java / cassandra场景？

已编辑要显示解决方案：

import org.apache.spark.sql.DataFrame;
import static org.apache.spark.sql.functions.*;

DataFrame df = sqlContext.read()
        .format("org.apache.spark.sql.cassandra")
        .option("table",  "someTable")
        .option("keyspace", "someKeyspace")
        .load();

df.groupBy(col("keyColumn"))
        .agg(min("valueColumn"), max("valueColumn"), avg("valueColumn"))
        .show();

Answer 1

施展它。 (double) Variable_here将是变量的值，但是为double。

如何计算非Double类型的Spark Statistics

1 个答案: