是否可以在apache spark中的两个DATAFILES上执行JOIN操作?

时间:2016-07-13 09:41:05

标签: apache-spark apache-spark-sql spark-streaming spark-dataframe

我正在做一些与Spark中的排序混乱相关的工作。我认为一个map任务创建一个数据文件(序列化对象形式的数据)和一个indexfile(指向该数据文件的记录)。我想在两个不同的数据文件(两个不同的地图任务)上执行JOIN。是否可以通过更改Spark的内部代码来实现这一点? 请帮我。谢谢

1 个答案:

答案 0 :(得分:0)

您可以使用rdd类中提供的 union 函数添加到相同类型的rdd个对象。

例如:

假设您有2个rdd个对象,如下所示,

JavaRDD<String> firstFile = sc.textFile("path\to\file");
JavaRDD<String> secondFile = sc.textFile("path\to\file");

您可以使用&#34; union &#34;加入功能,然后将其分配给新的rdd

JavaRDD<String> rdd = firstFile.union(secondFile);