我在Spark Streaming
编写了一个pyspark
程序。
它通过socketTextStream
接收实时输入文本流并执行一些转换,并将其csv
文件保存为saveAsTextFile
。不使用Spark streaming
窗口操作,并且不需要先前的数据来创建输出数据。
但似乎Spark
在前一个RDD
完成之前,DStream
开始处理RDD
,即使上一个RDD
仅使用了几个分区和CPU /内存。
这是Spark
的默认行为吗?有没有办法改变这种行为?
答案 0 :(得分:0)
您能否发布您的代码以及您面临的问题?
从概念上讲,每个时间间隔内的数据在间隔结束时形成一个rdd(这就是形成小批量数据抽象的想法)。