我是Spark和Scala的新手,并试图了解操纵从csv加载的表的最佳方法是什么。假设我有csv格式的要素数据集,我需要按列对值进行规范化。
我从这段代码开始
val rdd=sc.textFile("test.csv").map(_.split(","))
textFile按行切片数据。如何将所有列值添加到reducer以计算平均值,计数,最大值,最小值和标准化值?如何使用列索引键生成元组? 感谢
答案 0 :(得分:2)
我建议您查看spark-csv package上的spark-packages以及与Spark's DataFrames一起使用的内容,您将能够对您感兴趣的不同列进行聚合。