我正在从csv中读取数据,然后将其存储到Parquet中。 我有一组要根据年和月划分的表,并在将它们存储在拼花地板中时按日期排序。 我最初考虑使用partitionBy和sortBy API。
但是我遇到了以下问题:
1)似乎不支持sortby,除非bucketBy也是如此 用过的 。有办法避免这种情况吗?将在 数据框提供相同的效果?
2)是否可以在没有Hive支持的情况下使用partitionby api?
3)我正在将数据存储到内部Hive表中, 如果选择查询执行,任何性能优势 我将数据存储在外部Hive表中吗?