Spark嵌套的RDD限制

时间:2016-08-18 13:51:32

标签: apache-spark apache-spark-sql rdd spark-dataframe apache-spark-dataset

看起来无法执行嵌套的RDD操作是Spark现在面临的限制。

目前,我有两个从不同表中加载的数据集(比如说A和B) 数据集A中的每条记录,我需要查询其他数据集B.并在将数据提交到数据库之前进一步转换结果。

加入在这种情况下不会像我在其他一些SO问题中所建议的那样起作用。 例如,嵌套的spark Sql查询是这样的:

foreach(r => ...
   select x,y,z from A
   where k in (select i from B where j=r)

那么如何使用嵌套处理A对B的每条记录。

由于

0 个答案:

没有答案