我想在Spark Structured Streaming中对窗口批量数据运行迭代算法,这对应于在RelationalGroupedDataset或KeyValueGroupedDataset中对组运行迭代算法。
我能找到的唯一选项(如UserDefinedAggregateFunction或mapGroupsWithState)仅支持对每个组中的数据进行一次传递。有没有办法定义一个对该组进行多次传递的计算?
https://www.microsoft.com/en-us/research/wp-content/uploads/2016/02/thompson.pdf中的算法3是一个算法的示例,该算法在移动到下一个窗口之前对数据窗口执行迭代优化。