如何比较RDD(PYSPARK)的所有列字段

时间:2016-11-07 10:58:22

标签: python dataset pyspark rdd

假设我有一个只有一列的rdd。我想比较,配对后,将值放入一行。 离。

>rdd1:
a
b
c

我想存储

的结果
funct(a,b),funct(a,c),funct(b,c)

一个想法(低绩效)可能是: 1)RDD2 = RDD1集 2)生成笛卡尔rdd1和rdd2并比较每对 与

z=rddCartesian.map(lambda x: funct(x[0],x[1]))

但是由于数据集很大(例如N),笛卡尔将具有维度(NxN),无法处理。

有什么建议吗?

提前致谢

0 个答案:

没有答案