看起来无法执行嵌套的RDD操作是Spark现在面临的限制。
目前,我有两个从不同表中加载的数据集(比如说A和B) 数据集A中的每条记录,我需要查询其他数据集B.并在将数据提交到数据库之前进一步转换结果。
加入在这种情况下不会像我在其他一些SO问题中所建议的那样起作用。 例如,嵌套的spark Sql查询是这样的:
foreach(r => ...
select x,y,z from A
where k in (select i from B where j=r)
那么如何使用嵌套处理A对B的每条记录。
由于