如何在python中将spark rdd转换为结构化流的时间窗口进程

时间:2017-12-14 03:00:45

标签: python apache-spark pyspark spark-streaming

如何将spark rdd转换为结构化流媒体以进行时间窗口处理?

例如,我想从es查询数据集并将其作为结构化流处理。

conf = {"es.resource" : "index/type"}  # assume Elasticsearch is running on localhost defaults
rdd = sc.newAPIHadoopRDD("org.elasticsearch.hadoop.mr.EsInputFormat",
                     "org.apache.hadoop.io.NullWritable",
                     "org.elasticsearch.hadoop.mr.LinkedMapWritable",
                     conf=conf)

streamdf = function(rdd)

streamdf.groupBy(
    window(streamdf.event_time, windowDuration, slideDuration),
    streamdf.mykey
).count().orderBy('window')

功能是什么?

0 个答案:

没有答案