对于spark dstream应用程序,我需要访问以前的批处理数据帧/ rdds, 因此,我尝试重新创建一个玩具示例以更好地理解。
用例:要每5分钟获取字数统计,但在满足特定条件的情况下,我应该能够获取最近30分钟的字数统计。
在spark文档中,检查点功能如下所述。
数据检查点-将生成的RDD保存到可靠的存储中。 在结合数据的某些有状态转换中,这是必需的 跨多个批次。在这种转换中,生成的RDD 取决于先前批次的RDD,这会导致 依赖链随着时间的增长而不断增加
我不确定一旦检查点数据,如何访问先前的rdds。
我尝试使用localcheckpoint,但是在handler(rdd)方法的“ else”中失败,提示它找不到df。
注意:我知道我们有类似reduceByKey和updateStateByKey之类的选项,但这些选项不适用于我的情况。如果我可以访问上一批的DF或RDD,将会更容易。
import sys
from pyspark import SparkContext
from pyspark.streaming import StreamingContext
from pyspark.streaming.kafka import KafkaUtils
from pyspark.sql import SparkSession
from pyspark.sql.types import StructType, IntegerType, StringType
spark = SparkSession.builder.master("local").appName("Word Count").getOrCreate()
flag = True
def handler(rdd):
global flag
if not rdd.isEmpty():
if flag:
df=spark.read.json(rdd)
df = df.localCheckpoint()
flag=False
else:
df1=spark.read.json(rdd)
df = df.union(df1)
df = df.localCheckpoint()
df.show()
if __name__ == "__main__":
sc=spark.sparkContext
ssc = StreamingContext(sc, 2)
brokers, topic = sys.argv[1:]
kvs = KafkaUtils.createDirectStream(ssc, [topic],{"metadata.broker.list": brokers})
lines = kvs.map(lambda x: x[1])
lines.foreachRDD(handler)
ssc.start()
ssc.awaitTermination()