saveAsTextFile性能提升

时间:2015-06-17 12:44:52

标签: java apache-spark yarn

我使用的数据源格式高达1500000

1
2
3
4
5
..
1500000

我使用了以下代码段

JavaRDD<String> dataCollection=ctx.textFile("hdfs://yarncluster/Input/datasource");

JavaPairRDD<String,String> rdd=dataCollection.cartesian(dataCollection);

rdd.saveAsTextFile("hdfs://yarncluster/Ouput");

将数据保存在群集中需要更多时间。 还有其他方法可以改善性能吗?

1 个答案:

答案 0 :(得分:1)

您可以通过调用具有大量分区的重新分区来提高并行度。