标签: apache-spark
我有一系列的值(来自按键减少)。我知道理论上关键是有序的事物序列,我应该能够减少它们。
我想在这些序列上运行一个窗口。我可以将窗口存储在累加器中以用于reduce函数,但我认为Spark并行化工作流程的方式(要求函数是可交换的和关联的)意味着窗口可能会被切断。
有办法做到这一点吗?