python - 在Spark中加入数据集 - Thinbug

在Spark中加入数据集

时间：2015-12-23 06:13:55

标签： python scala apache-spark

在Spark中加入数据有哪些不同的方式？

Hadoop map reduce提供 - 分布式缓存，地图侧连接和减少侧连接。 Spark怎么样？

如果你能提供简单的scala和python代码来加入Spark中的数据集，那就太棒了。

1 个答案:

答案 0 :(得分：1)

Spark有两个基本的分布式数据对象。数据框和RDD。

RDD的一种特殊情况，在这种情况下，两者都是成对的，可以在它们的键上连接。这可以使用PairRDDFunctions.join()获得。请参阅：https://spark.apache.org/docs/1.5.2/api/scala/index.html#org.apache.spark.rdd.PairRDDFunctions

Dataframes还允许类似SQL的连接。请参阅：http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.sql.DataFrame