假设我有一个只有一列的rdd。我想比较,配对后,将值放入一行。 离。
>rdd1:
a
b
c
我想存储
的结果funct(a,b),funct(a,c),funct(b,c)
一个想法(低绩效)可能是: 1)RDD2 = RDD1集 2)生成笛卡尔rdd1和rdd2并比较每对 与
z=rddCartesian.map(lambda x: funct(x[0],x[1]))
但是由于数据集很大(例如N),笛卡尔将具有维度(NxN),无法处理。
有什么建议吗?
提前致谢