我正在尝试使用DataFrameWriter.bucketBy()方法按给定列存储输出。但是输出数据将确切存储在哪里?
它存储在内存中还是可以存储在文件系统中?
代码:
>>> (df.write.format('parquet')
... .bucketBy(100, 'year', 'month')
... .mode("overwrite")
... .saveAsTable('bucketed_table'))
答案 0 :(得分:0)
saveAsTable始终将数据帧作为表存储到HDFS中。