考虑到具有多个元组的rdd,我如何获得给定长度的所有组合?说我有
from pyspark import SparkConf, SparkContext
conf = SparkConf()
sc = SparkContext(conf = conf)
elements = sc.parallelize([('A','B'), ('D','E'), ('G','H')])
和一些长度参数,例如length=3
我想获得
res = [('A','B','D'), ('A','B','E'), ('A','B','G'), ('A','B','H'), ('D','E','G'), ('D','E','H')]
我找到了之前的post,但不幸的是,没有一个答案解决了预定义长度的问题。