Question

我使用的数据源格式高达1500000

我使用了以下代码段

JavaRDD<String> dataCollection=ctx.textFile("hdfs://yarncluster/Input/datasource");

JavaPairRDD<String,String> rdd=dataCollection.cartesian(dataCollection);

rdd.saveAsTextFile("hdfs://yarncluster/Ouput");

将数据保存在群集中需要更多时间。还有其他方法可以改善性能吗？

Answer 1

您可以通过调用具有大量分区的重新分区来提高并行度。

saveAsTextFile性能提升

1 个答案: