在Spark中partitionBy,sortBy

时间:2018-12-10 19:32:53

标签: apache-spark hive

我正在从csv中读取数据,然后将其存储到Parquet中。 我有一组要根据年和月划分的表,并在将它们存储在拼花地板中时按日期排序。 我最初考虑使用partitionBy和sortBy API。

但是我遇到了以下问题:

1)似乎不支持sortby,除非bucketBy也是如此    用过的 。有办法避免这种情况吗?将在    数据框提供相同的效果?

2)是否可以在没有Hive支持的情况下使用partitionby api?

3)我正在将数据存储到内部Hive表中,    如果选择查询执行,任何性能优势    我将数据存储在外部Hive表中吗?

0 个答案:

没有答案