Spark Bucketizer - 显示所有桶,即使没有元素

时间:2017-09-28 06:26:53

标签: scala apache-spark spark-dataframe buckets

我有一个事件列表,如下所示 从火花数据帧生成。我使用Spark 2.2.0和Scala。

val events = df.select($"event", hour($"time") as "hour", to_date($"time", "yyyy-MM-dd") as "day")

+-----+-----+----------+ |event|hour | day| +-----+-----+----------+ |event1| 18|2015-02-05| |event1| 17|2015-02-19| |event5| 18|2015-02-02| |event5| 19|2015-02-02| |event1| 1|2015-03-17| |event1| 0|2015-02-03| |event1| 20|2015-02-02| |event1| 22|2015-02-02| |event1| 23|2015-02-02| |event1| 18|2015-02-09| |event1| 19|2015-02-09| |event1| 21|2015-02-09| |event1| 21|2015-04-06| |event1| 23|2015-02-09| |event1| 20|2015-02-16| |event2| 19|2015-02-12| |event3| 18|2015-02-18| |event1| 22|2015-02-16| |event2| 17|2015-02-04| |event1| 23|2015-02-16| +-----+----+----------+ only showing top 20 rows

我需要创建每小时的桶并计算每小时发生的事件数量。所以我的方法是创建存储桶(其中24个)并在特定的小时槽中计算事件,如下所示。

val splits = (0 to 24).map(_ * 1.0).toArray
val bucketizer = new Bucketizer()
    .setInputCol("hour")
    .setOutputCol("bucket")
    .setSplits(splits)

val bucket = bucketizer.transform(events)

val result = bucket.groupBy($"day", $"bucket").agg(count($"event").as("count")).orderBy(asc("bucket"))

result.filter($"day" === "2015-05-21").orderBy(asc("bucket")).show()

以上代码的结果是

+----------+------+-----+ | day|bucket|count| +----------+------+-----+ |2015-05-21| 0.0| 1| |2015-05-21| 2.0| 1| |2015-05-21| 11.0| 1| |2015-05-21| 17.0| 1| |2015-05-21| 18.0| 4| |2015-05-21| 19.0| 4| |2015-05-21| 21.0| 1| |2015-05-21| 22.0| 3| |2015-05-21| 23.0| 1| +----------+------+-----+

哪个是对的。然而,我期待的输出是这样的:

+----------+------+-----+ | day|bucket|count| +----------+------+-----+ |2015-05-21| 0.0| 1| |2015-05-21| 1.0| 0| |2015-05-21| 2.0| 1| |2015-05-21| 3.0| 0| |2015-05-21| 4.0| 0| |2015-05-21| 5.0| 0| : : |2015-05-21| 11.0| 1| |2015-05-21| 12.0| 0| |2015-05-21| 13.0| 0| : : |2015-05-21| 17.0| 1| |2015-05-21| 18.0| 4| |2015-05-21| 19.0| 4| |2015-05-21| 20.0| 0| |2015-05-21| 21.0| 1| |2015-05-21| 22.0| 3| |2015-05-21| 23.0| 1| +----------+------+-----+

基本上,没有事件的垃圾箱(桶)应填充0.任何想法如何实现?

谢谢!

1 个答案:

答案 0 :(得分:1)

这是我目前没有使用Bucketizer的解决方案(我承认不是很漂亮)

public ActionResult GetKendoWindow(int ID){
    ViewBag.Id = ID;
    return PartialView("_PartialView"); // Html file name
}

此代码返回如下所示的内容:

val events = df.select($"event", hour($"time") as "hour", to_date($"time", "yyyy-MM-dd") as "day") val left = (0 to 24).toDF.withColumnRenamed("value", "hour") val right = or_counts.filter($"day" === "2015-05-21").groupBy($"hour").agg(count("event").as("count")).orderBy(asc("hour")) left.join(right, Seq("hour"), "left_outer").na.fill(0, Seq("count")).show() 这是我的预期结果。 如果有人能提出更好的解决方案,我会接受这个答案。

谢谢!