Spark Streaming:所有时间的平均值

时间:2016-06-30 12:23:53

标签: apache-spark spark-streaming dstream atomic-long

我写了一个Spark Streaming应用程序,它接收温度值并计算所有时间的平均温度。为此,我使用JavaPairDStream.updateStateByKey事务来计算每个设备(由Pair&#39键分隔)。对于状态跟踪,我使用StatCounter类,它将所有温度值保持为双精度值,并通过调用StatCounter.mean方法重新计算每个流的平均值。我的节目在这里:

编辑我的整个代码:现在使用StatCounter

JavaStreamingContext streamingContext = new JavaStreamingContext(sparkConf, Durations.seconds(1));

streamingContext.checkpoint("hdfs://server:8020/spark-history/checkpointing");

JavaReceiverInputDStream<String> ingoingStream = streamingContext.socketTextStream(serverIp, 11833);

JavaDStream<SensorData> sensorDStream = ingoingStream.map(new Function<String, SensorData>() {
    public SensorData call(String json) throws Exception {
        ObjectMapper om = new ObjectMapper();
        return (SensorData)om.readValue(json, SensorData.class);
    }
});

JavaPairDStream<String, Float> temperatureDStream = sensorDStream.mapToPair(new PairFunction<SensorData, String, Float>() {
    public Tuple2<String, Float> call(SensorData sensorData) throws Exception {
        return new Tuple2<String, Float>(sensorData.getIdSensor(), sensorData.getValTemp());
    }
});

JavaPairDStream<String, StatCounter> statCounterDStream = temperatureDStream.updateStateByKey(new Function2<List<Float>, Optional<StatCounter>, Optional<StatCounter>>() {
    public Optional<StatCounter> call(List<Float> newTemperatures, Optional<StatCounter> statsYet) throws Exception {
        StatCounter stats = statsYet.or(new StatCounter());

        for(float temp : newTemperatures) {
            stats.merge(temp);
        }

        return Optional.of(stats);
    }
});

JavaPairDStream<String, Double> avgTemperatureDStream = statCounterDStream.mapToPair(new PairFunction<Tuple2<String,StatCounter>, String, Double>() {
    public Tuple2<String, Double> call(Tuple2<String, StatCounter> statCounterTuple) throws Exception {
        String key = statCounterTuple._1();
        double avgValue = statCounterTuple._2().mean();

        return new Tuple2<String, Double>(key, avgValue);
    }
});

avgTemperatureDStream.print();

这似乎工作正常。但现在问题是:

我刚刚在网上找到了一个示例,其中还显示了如何计算所有时间的平均值:https://databricks.gitbooks.io/databricks-spark-reference-applications/content/logs_analyzer/chapter1/total.html

他们使用AtmoicLongs等来存储&#34;有状态值&#34;并使用forEachRDD方法更新它们。

我现在的问题是:在Spark Streaming中有状态地计算所有时间的更好的解决方案是什么?使用其中一种方式有什么优点/缺点吗?谢谢!

0 个答案:

没有答案