应用错误收集

Spark参考表

时间：2016-01-28 09:35:38

标签： apache-spark

Spark RDD包含一个集合，每个元素代表一个请求。

Scala函数将传递给RDD，对于每个RDD元素，该函数将创建一个修改过的请求。

对于每个集合元素\请求，需要引用查找表。参考表的最大大小为200行。

性能和可伸缩性如何建模查找表（在函数中使用）？

Spark Broadcast变量。
独立Spark RDD。
Scala不可变集合。

也许还有一个我没有考虑的选择。

由于

1 个答案:

答案 0 :(得分：0)

这取决于您的RDD的大小，但是假设您的参考表将有大约200行，我认为最好的选择是使用广播变量。

如果您使用单独的RDD，您可以制作火花来重新分配请求RDD并进行不必要的随机播放。