DataFrameWriter.bucketBy()在哪里存储数据?

时间:2018-09-16 07:22:01

标签: apache-spark-sql

我正在尝试使用DataFrameWriter.bucketBy()方法按给定列存储输出。但是输出数据将确切存储在哪里?

它存储在内存中还是可以存储在文件系统中?

代码:

>>> (df.write.format('parquet')  
...     .bucketBy(100, 'year', 'month')
...     .mode("overwrite")
...     .saveAsTable('bucketed_table'))

1 个答案:

答案 0 :(得分:0)

saveAsTable始终将数据帧作为表存储到HDFS中。