如何更新RDD?

时间:2014-12-16 11:42:12

标签: apache-spark rdd spark-streaming

我们正在开发Spark框架,其中我们将历史数据移动到RDD集中。

基本上,RDD是我们进行操作的不可变的只读数据集。 基于此,我们已将历史数据移至RDD,并在此类RDD上进行过滤/映射等计算。

现在有一个用例,RDD中的数据子集得到更新,我们必须重新计算这些值。

HistoricalData采用RDD的形式。 我根据请求范围创建了另一个RDD,并将该RDD的引用保存在 ScopeCollection

到目前为止,我已经能够考虑以下方法 -

方法1:广播变更:

  1. 对于每个更改请求,我的服务器都会获取特定于范围的RDD并生成作业
  2. 在工作中,在该RDD上应用地图阶段 -

    2.A.对于RDD中的每个节点,在广播上进行查找并创建一个现在更新的新值,从而创建一个新的RDD
    2.B.现在我在step2.a上再次对这个新的RDD进行所有计算。像乘法,减少等 2.C.我将此RDD参考保存在我的 ScopeCollection
  3. 方法2:为更新创建RDD

    1. 对于每个更改请求,我的服务器都会获取特定于范围的RDD并生成作业
    2. 在每个RDD上,使用具有更改的新RDD进行连接
    3. 现在我在步骤2再次对这个新RDD进行所有计算,如乘法,减少等
    4. 方法3:

      我曾想过创建流式RDD,我不断更新相同的RDD并进行重新计算。但据我所知,它可以从Flume或Kafka获取流。而在我的情况下,值是基于用户交互在应用程序本身中生成的。 因此,在我的上下文中,我无法看到流式RDD的任何集成点。

      关于哪种方法更好或任何其他适合此方案的方法的任何建议。

      TIA!

2 个答案:

答案 0 :(得分:9)

此处提供的用例与Spark Streaming非常匹配。另外两个选项带有一个问题:“你如何提交重新计算RDD?”

Spark Streaming提供了一个框架,可以根据一些传入数据流不断向Spark提交工作,并以RDD格式保存这些数据。 Kafka和Flume只是两种可能的Stream源。

您可以使用SocketInputDStream的Socket通信,使用FileInputDStream读取目录中的文件,甚至使用QueueInputDStream的共享队列。如果这些选项都不适合您的应用程序,您可以编写自己的InputDStream

在此用例中,使用Spark Streaming,您将读取基础RDD并使用传入的dstream逐步转换现有数据并保持不断变化的内存状态。 dstream.transform将允许您将基本RDD与在给定批处理间隔期间收集的数据相结合,而updateStateByKey操作可以帮助您构建由密钥寻址的内存中状态。有关详细信息,请参阅documentation

如果没有关于应用程序的更多细节,很难使用Spark Streaming来达到代码级别。我建议你探索这条道路并为任何特定主题提出新的问题。

答案 1 :(得分:1)

我建议看看IndexedRDD implementation,它提供了键值对的可更新RDD。这可能会给你一些见解。

这个想法基于密钥的知识,允许您使用已创建的RDD的相同密钥压缩更新的数据块。在更新期间,可以过滤掉以前版本的数据。

拥有历史数据,我会说你必须拥有某种事件的身份。

关于流媒体和消费,可以使用TCP端口。这样驱动程序可能会打开一个TCP连接,期望从那里读取并发送更新。