Spark SQL中的分区表

时间:2017-02-16 09:34:31

标签: hadoop apache-spark data-partitioning

我正在尝试将数据插入分区表。无论我是否提及关键字,重新分配'或者'分区',我看到数据正确地适合各自的分区。所以,我想知道,如果下面显示的关键字有任何意义:

scala> input.repartition($"decade").registerTempTable("second_table")

spark.sql("insert into lakehuron partition(decade) select date,level,decade from second_table")

在上面的代码中,我重复了两次练习,一旦删除了关键字' repartition'在第一行,再次删除'重新分区'在第一行和'分区'在第二行。两者都正确地将数据插入到相应的分区中,我能够看到在正确的分区/user/hive/warehouse/lakehuron/decade=1960中生成新文件

请帮助我理解这些关键词的重要性。

0 个答案:

没有答案