当spark sql读取一个hive表时,分区的数量是多少?

时间:2018-05-15 09:03:43

标签: apache-spark

在阅读this answer之后,我知道从Hive读取数据时的分区数量将由HDFS blockSize决定。

但我遇到了一个问题:我使用spark sql来读取一个hive表,并将数据保存到一个新的hive表中,但是两个hive表在使用spark sql加载时有不同的分区号。

  val data = spark.sql("select * from src_table")
  val partitionsNum = data.rdd.getNumPartitions
  println(partitionsNum)
  val newData = data
newData.write.mode("overwrite").format("parquet").saveAsTable("new_table")

我不明白相同的数据,为什么不同的分区号。

0 个答案:

没有答案