我使用的数据源格式高达1500000
1
2
3
4
5
..
1500000
我使用了以下代码段
JavaRDD<String> dataCollection=ctx.textFile("hdfs://yarncluster/Input/datasource");
JavaPairRDD<String,String> rdd=dataCollection.cartesian(dataCollection);
rdd.saveAsTextFile("hdfs://yarncluster/Ouput");
将数据保存在群集中需要更多时间。 还有其他方法可以改善性能吗?
答案 0 :(得分:1)
您可以通过调用具有大量分区的重新分区来提高并行度。