如何提高Spark DataFrame的性能

时间:2016-07-15 09:35:23

标签: performance apache-spark spark-dataframe

如何提高RDBMS DataFrame的性能。

我需要对获取的数据执行GROUP BY

我的表现如下:

DataFrame jdbcDF = this.SQLCONTEXT.read().format("jdbc").options(options).load();
// Options is map contains db configuration

DataFrame groupedDataFrame = jdbcDF.groupBy("UNQ_STR").count();

如何进一步调整此内容?

1 个答案:

答案 0 :(得分:0)

你还没有调整它。您可以做的一件事是增加选项中的批量大小。另一件事是,如果你在DataFrame上有其他操作,你可以缓存加载的数据......

然后,除了改善RDBMS或RDBMS本身的带宽之外,你可以做的更多,无论哪个是瓶颈。