Question

如何提高RDBMS DataFrame的性能。

我需要对获取的数据执行GROUP BY。

我的表现如下：

DataFrame jdbcDF = this.SQLCONTEXT.read().format("jdbc").options(options).load();
// Options is map contains db configuration

DataFrame groupedDataFrame = jdbcDF.groupBy("UNQ_STR").count();

如何进一步调整此内容？

Answer 1

你还没有调整它。您可以做的一件事是增加选项中的批量大小。另一件事是，如果你在DataFrame上有其他操作，你可以缓存加载的数据......

然后，除了改善RDBMS或RDBMS本身的带宽之外，你可以做的更多，无论哪个是瓶颈。

如何提高Spark DataFrame的性能

1 个答案: