我确实有以(K,(V,W))格式加入Apache Spark的结果集。我需要在Python中使用Apache Spark将其减少到(V,W)。我应该使用什么函数将(K,(V,W))转换为(V,W)?
我是Apache Spark的新手,并审查了Apache Spark可用的功能。但我觉得这不适合这种情况。
答案 0 :(得分:0)
作为@Pangea提出的map
解决方案的替代方案,您还可以使用values
方法:
animals=sc.parallelize([(1,"mouse"),(2,"elephant"),(3,"cat")])
fruits=sc.parallelize([(1,"apple"),(1,"orange"),(3,"banana")])
fruitAnimals=animals.join(fruits).values()
fruitAnimals.collect()
#[('mouse', 'apple'), ('mouse', 'orange'), ('cat', 'banana')]