Apache Spark从连接结果集(K,(V,W))转换为(V,W)键值对

时间:2016-01-03 18:55:33

标签: python apache-spark

我确实有以(K,(V,W))格式加入Apache Spark的结果集。我需要在Python中使用Apache Spark将其减少到(V,W)。我应该使用什么函数将(K,(V,W))转换为(V,W)?

我是Apache Spark的新手,并审查了Apache Spark可用的功能。但我觉得这不适合这种情况。

1 个答案:

答案 0 :(得分:0)

作为@Pangea提出的map解决方案的替代方案,您还可以使用values方法:

animals=sc.parallelize([(1,"mouse"),(2,"elephant"),(3,"cat")])
fruits=sc.parallelize([(1,"apple"),(1,"orange"),(3,"banana")])
fruitAnimals=animals.join(fruits).values()
fruitAnimals.collect()
#[('mouse', 'apple'), ('mouse', 'orange'), ('cat', 'banana')]