如何对一列中的值范围进行存储并计算scala中每个间隔内有多少值?

时间:2019-02-18 13:58:53

标签: scala apache-spark

如何存储值的范围(将整个值范围划分为一系列间隔),然后计算每个间隔中有多少个值。

我有一个带有少量数字列的spark DataFrame。在每一列中,我要对值的范围进行存储,然后计算每个间隔内有多少个值。

1 个答案:

答案 0 :(得分:0)

您可以使用Scala Bucketizer。这里有一个很好的例子: https://spark.apache.org/docs/2.2.0/ml-features.html#bucketizer

使用存储桶后,您将获得一个带有存储桶索引的数据帧(即索引1、2和3可能分别对应于值1-5、6-10、11-15)。您可以执行.groupBy和.agg(或使用SQL)以获取每个索引组中的记录计数)。