在spark中是否有有效的方法来逐列处理数据(与行相比)?
我想对每一栏进行一些全数据库分析。我想迭代数据库中的每一列,并将其与具有显着性测试的另一列进行比较。
colA = "select id, colA from table1"
foreach table, t:
foreach id,colB in t: # "select id, colB from table2"
# align colA,colB by ID
ab = join(colA,colB)
yield comparefunc(ab)
我有~100行,但是~10k列。 发出~10k选项非常慢,但我不应该进行select *并将每列广播到不同的节点进行处理。