Spark流媒体逐个处理RDD?

时间:2015-04-29 04:30:36

标签: apache-spark pyspark

我在Spark Streaming编写了一个pyspark程序。

它通过socketTextStream接收实时输入文本流并执行一些转换,并将其csv文件保存为saveAsTextFile。不使用Spark streaming窗口操作,并且不需要先前的数据来创建输出数据。

但似乎Spark在前一个RDD完成之前,DStream开始处理RDD,即使上一个RDD仅使用了几个分区和CPU /内存。

这是Spark的默认行为吗?有没有办法改变这种行为?

1 个答案:

答案 0 :(得分:0)

您能否发布您的代码以及您面临的问题?

从概念上讲,每个时间间隔内的数据在间隔结束时形成一个rdd(这就是形成小批量数据抽象的想法)。