Spark:处理从文本文件加载的数据集列

时间:2015-05-29 00:00:09

标签: scala apache-spark bigdata

我是Spark和Scala的新手,并试图了解操纵从csv加载的表的最佳方法是什么。假设我有csv格式的要素数据集,我需要按列对值进行规范化。

我从这段代码开始

val rdd=sc.textFile("test.csv").map(_.split(","))

textFile按行切片数据。如何将所有列值添加到reducer以计算平均值,计数,最大值,最小值和标准化值?如何使用列索引键生成元组? 感谢

1 个答案:

答案 0 :(得分:2)

我建议您查看spark-csv package上的spark-packages以及与Spark's DataFrames一起使用的内容,您将能够对您感兴趣的不同列进行聚合。