我正在做一些与Spark中的排序混乱相关的工作。我认为一个map任务创建一个数据文件(序列化对象形式的数据)和一个indexfile(指向该数据文件的记录)。我想在两个不同的数据文件(两个不同的地图任务)上执行JOIN。是否可以通过更改Spark的内部代码来实现这一点? 请帮我。谢谢
答案 0 :(得分:0)
您可以使用rdd
类中提供的 union 函数添加到相同类型的rdd
个对象。
例如:
假设您有2个rdd
个对象,如下所示,
JavaRDD<String> firstFile = sc.textFile("path\to\file");
JavaRDD<String> secondFile = sc.textFile("path\to\file");
您可以使用&#34; union &#34;加入功能,然后将其分配给新的rdd
JavaRDD<String> rdd = firstFile.union(secondFile);