Spark分类数据摘要统计

时间:2015-04-07 19:57:42

标签: hadoop apache-spark

对于连续数据,可以使用RDD.map(x => x.scores(0)).stats()来计算摘要统计信息。

给出了结果 org.apache.spark.util.StatCounter = (count: 4498289, mean: 0.028091, stdev: 2.332627, max: 22.713133, min: -36.627933)

如何在Spark中获得类似的分类数据结果? (不同值的计数,最高值的个别计数等)

1 个答案:

答案 0 :(得分:0)

经过进一步研究,我发现了如何获得分类数据的直方图。
如果其他人有兴趣......

val countColumn = parsedLines.map(_.ColumnName).countByValue() countColumn.toSeq.sortBy(_._2).reverse.foreach(println)

这将打印列的每个不同值及其计数。