对于连续数据,可以使用RDD.map(x => x.scores(0)).stats()
来计算摘要统计信息。
给出了结果
org.apache.spark.util.StatCounter = (count: 4498289, mean: 0.028091, stdev: 2.332627, max: 22.713133, min: -36.627933)
如何在Spark中获得类似的分类数据结果? (不同值的计数,最高值的个别计数等)
答案 0 :(得分:0)
经过进一步研究,我发现了如何获得分类数据的直方图。
如果其他人有兴趣......
val countColumn = parsedLines.map(_.ColumnName).countByValue()
countColumn.toSeq.sortBy(_._2).reverse.foreach(println)
这将打印列的每个不同值及其计数。