火花上的逐列处理?

时间:2017-05-16 16:36:21

标签: apache-spark pyspark spark-dataframe

在spark中是否有有效的方法来逐列处理数据(与行相比)?

我想对每一栏进行一些全数据库分析。我想迭代数据库中的每一列,并将其与具有显着性测试的另一列进行比较。

colA = "select id, colA from table1"

foreach table, t:
   foreach id,colB in t: # "select id, colB from table2"
     # align colA,colB by ID
     ab = join(colA,colB)
     yield comparefunc(ab)

我有~100行,但是~10k列。 发出~10k选项非常慢,但我不应该进行select *并将每列广播到不同的节点进行处理。

0 个答案:

没有答案