如何提高RDBMS DataFrame的性能。
我需要对获取的数据执行GROUP BY
。
我的表现如下:
DataFrame jdbcDF = this.SQLCONTEXT.read().format("jdbc").options(options).load();
// Options is map contains db configuration
DataFrame groupedDataFrame = jdbcDF.groupBy("UNQ_STR").count();
如何进一步调整此内容?
答案 0 :(得分:0)
你还没有调整它。您可以做的一件事是增加选项中的批量大小。另一件事是,如果你在DataFrame上有其他操作,你可以缓存加载的数据......
然后,除了改善RDBMS或RDBMS本身的带宽之外,你可以做的更多,无论哪个是瓶颈。