Question

我是Spark和Scala的新手，并试图了解操纵从csv加载的表的最佳方法是什么。假设我有csv格式的要素数据集，我需要按列对值进行规范化。

我从这段代码开始

val rdd=sc.textFile("test.csv").map(_.split(","))

textFile按行切片数据。如何将所有列值添加到reducer以计算平均值，计数，最大值，最小值和标准化值？如何使用列索引键生成元组？感谢

Answer 1

我建议您查看spark-csv package上的spark-packages以及与Spark's DataFrames一起使用的内容，您将能够对您感兴趣的不同列进行聚合。