apache中的非关联聚合激发流式传输

时间:2015-01-23 17:25:13

标签: java hadoop apache-spark spark-streaming

我正在尝试使用apache spark streaming在Java中构建一个实用程序层,用户可以在一段时间内聚合数据(使用spark中的窗口函数),但似乎所有可用选项都需要关联函数(带两个参数) )。然而,对于一些相当常见的用例,例如平均温度传感器值超过一小时等,似乎不可能使用spark API。

有没有其他方法可以实现这种功能?我正在考虑实现重复的交互式查询来实现这一目标,但速度太慢了。

1 个答案:

答案 0 :(得分:1)

统计汇总(平均值,方差)实际上是关联的,可以在线计算。请参阅here以获得良好的数字化方法。

就参数数量而言,请记住您在参数中输入的内容的类型。您可以使用元组在其中一个中嵌套多个参数。

最后,您还可以使用类似updateStateByKey的有状态信息。