我的问题可能是愚蠢的或其他任何事情。但我想知道:
所以我有这个
val data_processed = data_raw
.withWatermark("timestamp", "10 minutes")
.groupBy(window(col("timestamp"),"1 minute"))
.agg(
*** all aggregations ***
)
我想添加的内容如下:
.withColumn("row_scored",scoring(all_others_cols))
因此,对于结构化流媒体中的每一行,它将在聚合后得分。但我不认为这是可能的。所以我想知道你是否想到另一种方法。
我使用苏打水,所以评分功能需要一个H2O框架。我想创建一个像这样的udf:
但我不认为这是相当优化的,也许你有一个新的方法或评论会让人看到另一种方法。
提前致谢