Question

我正在做一些与Spark中的排序混乱相关的工作。我认为一个map任务创建一个数据文件（序列化对象形式的数据）和一个indexfile（指向该数据文件的记录）。我想在两个不同的数据文件（两个不同的地图任务）上执行JOIN。是否可以通过更改Spark的内部代码来实现这一点？请帮我。谢谢

Answer 1

您可以使用rdd类中提供的 union 函数添加到相同类型的rdd个对象。

例如：

假设您有2个rdd个对象，如下所示，

JavaRDD<String> firstFile = sc.textFile("path\to\file");
JavaRDD<String> secondFile = sc.textFile("path\to\file");

您可以使用＆＃34; union ＆＃34;加入功能，然后将其分配给新的rdd

JavaRDD<String> rdd = firstFile.union(secondFile);