apache-spark - 火花上的逐列处理？

在spark中是否有有效的方法来逐列处理数据（与行相比）？

我想对每一栏进行一些全数据库分析。我想迭代数据库中的每一列，并将其与具有显着性测试的另一列进行比较。

colA = "select id, colA from table1"

foreach table, t:
   foreach id,colB in t: # "select id, colB from table2"
     # align colA,colB by ID
     ab = join(colA,colB)
     yield comparefunc(ab)

我有~100行，但是~10k列。发出~10k选项非常慢，但我不应该进行select *并将每列广播到不同的节点进行处理。

火花上的逐列处理？

0 个答案: