我正在开发Spark Streaming并尝试监控和改善流媒体应用的性能。但我对以下问题感到困惑。
流媒体代码快照:
val transformed = input.flatMap(i => processInput(i))
val aggregated = transformed.reduceByKeyAndWindow(reduce(_, _), Seconds(aggregateWindowSizeInSeconds), Seconds(slidingIntervalInSeconds))
val finalized = aggregated.mapValues(finalize(_))
finalized
(门户网站上只发布了Flatmap阶段。)
Spark Streaming Portal
谢谢,
道
答案 0 :(得分:1)
Spark从源中获取各个命令,然后优化为要在群集上执行的任务计划。一个这样的优化的一个例子是map-fusion:两个地图调用进来,一个单一的地图任务出来。 阶段是任务组之间的更高级别边界,定义为跨越该边界,您必须执行随机播放。
所以: