是否可以在Spark SQL中对组运行迭代算法?

时间:2017-10-27 22:25:26

标签: apache-spark apache-spark-sql spark-structured-streaming

我想在Spark Structured Streaming中对窗口批量数据运行迭代算法,这对应于在RelationalGroupedDataset或KeyValueGroupedDataset中对组运行迭代算法。

我能找到的唯一选项(如UserDefinedAggregateFunction或mapGroupsWithState)仅支持对每个组中的数据进行一次传递。有没有办法定义一个对该组进行多次传递的计算?

https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/thompson.pdf中的算法3是一个算法的示例,该算法在移动到下一个窗口之前对数据窗口执行迭代优化。

0 个答案:

没有答案