假设我有一个非常基本的火花流应用程序,它从kafka读取100条数据记录,运行一个映射步骤,然后在每个intervall中调用stream.print(5)。一切都运行良好。 Spark在每个intervall中打印5条记录。我的问题是:打印功能是否使得火花计算所有100条记录上的地图步骤,或者仅在我要求的5条记录上计算? 我只是想确保spark执行所有数据的所有步骤,因为我正在运行一些性能测试。
答案 0 :(得分:0)
Spark将在整个map
上运行DStream
阶段。您只打印5条记录的事实是因为它们只是从迭代器中消耗掉,但是请确保所有数据都通过转换。