应用错误收集

apache中的非关联聚合激发流式传输

时间：2015-01-23 17:25:13

标签： java hadoop apache-spark spark-streaming

我正在尝试使用apache spark streaming在Java中构建一个实用程序层，用户可以在一段时间内聚合数据（使用spark中的窗口函数），但似乎所有可用选项都需要关联函数（带两个参数））。然而，对于一些相当常见的用例，例如平均温度传感器值超过一小时等，似乎不可能使用spark API。

有没有其他方法可以实现这种功能？我正在考虑实现重复的交互式查询来实现这一目标，但速度太慢了。

1 个答案:

答案 0 :(得分：1)

统计汇总（平均值，方差）实际上是关联的，可以在线计算。请参阅here以获得良好的数字化方法。

就参数数量而言，请记住您在参数中输入的内容的类型。您可以使用元组在其中一个中嵌套多个参数。

最后，您还可以使用类似updateStateByKey的有状态信息。