在Spark中加入数据集

时间:2015-12-23 06:13:55

标签: python scala apache-spark

在Spark中加入数据有哪些不同的方式?

Hadoop map reduce提供 - 分布式缓存,地图侧连接和减少侧连接。 Spark怎么样?

如果你能提供简单的scala和python代码来加入Spark中的数据集,那就太棒了。

1 个答案:

答案 0 :(得分:1)

Spark有两个基本的分布式数据对象。数据框和RDD。

RDD的一种特殊情况,在这种情况下,两者都是成对的,可以在它们的键上连接。这可以使用PairRDDFunctions.join()获得。请参阅:https://spark.apache.org/docs/1.5.2/api/scala/index.html#org.apache.spark.rdd.PairRDDFunctions

Dataframes还允许类似SQL的连接。请参阅:http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame