SPD的RDD联盟

时间:2015-10-07 10:32:31

标签: apache-spark

这里我正在阅读kinesis的数据,我将它存储在流rdd中。

在我处理该流rdd之前,我希望从kinesis读取其他数据并与之前的rdd结合。

就像这样,我想做rdd的联合4-5次,然后我想进一步处理它。

以下是我的代码

JavaReceiverInputDStream<byte[]> stream = KinesisUtils.createStream(sc, "speng-batch-ss", "SparkStreaming",
    "https://kinesis.us-west-2.amazonaws.com", "us-west-2",
    InitialPositionInStream.TRIM_HORIZON, Durations.seconds(batchIntervalSeconds),
    StorageLevel.MEMORY_AND_DISK_2(), ak, sk);

1 个答案:

答案 0 :(得分:0)

听起来你想要stream.Window(duration * 4/5)