Spark RDD包含一个集合,每个元素代表一个请求。
Scala函数将传递给RDD,对于每个RDD元素,该函数将创建一个修改过的请求。
对于每个集合元素\请求,需要引用查找表。 参考表的最大大小为200行。
性能和可伸缩性如何建模查找表(在函数中使用)?
也许还有一个我没有考虑的选择。
由于
答案 0 :(得分:0)
这取决于您的RDD的大小,但是假设您的参考表将有大约200行,我认为最好的选择是使用广播变量。
如果您使用单独的RDD,您可以制作火花来重新分配请求RDD并进行不必要的随机播放。