spark documenation包括用于计算类型" double"的值的最小值,最大值,平均值统计数据的工具。但是在尝试处理float类型的列值时如何处理spark / java / cassandra场景?
已编辑要显示解决方案:
import org.apache.spark.sql.DataFrame;
import static org.apache.spark.sql.functions.*;
DataFrame df = sqlContext.read()
.format("org.apache.spark.sql.cassandra")
.option("table", "someTable")
.option("keyspace", "someKeyspace")
.load();
df.groupBy(col("keyColumn"))
.agg(min("valueColumn"), max("valueColumn"), avg("valueColumn"))
.show();
答案 0 :(得分:1)
施展它。
(double) Variable_here
将是变量的值,但是为double。