在IMPALA中,我们可以通过创建表来优化查询,方法是指定创建基于某些列的文件排序,即在表创建过程中使用SORT BY。 似乎只有在我们使用“ INSERT”或“ CREATE table with select”来创建表时才起作用。
在我的用例中,我使用parquet-cpp在外部创建Parquet文件并将其上传到HDFS,然后使用IMPALA“ LOAD DATA”命令。
With this mode of loading data into IMPALA is there any way we can use SORT BY mechanism?