使用Apache Spark Notebook覆盖Bluemix对​​象存储中的Parquet文件

时间:2016-05-12 12:39:04

标签: apache-spark ipython ibm-cloud parquet object-storage

我正在运行Spark Notebook将DataFrame保存为Bluemix对​​象存储中的Parquet文件。

我想在重新运行笔记本时覆盖Parquet文件。但实际上它只是追加数据。

以下是iPython代码的示例:

df = sqlContext.sql("SELECT * FROM table")
df.write.parquet("swift://my-container.spark/simdata.parquet", mode="overwrite")

2 个答案:

答案 0 :(得分:0)

我不是蟒蛇人,但SaveMode适用于像这样的数据框

df.write.mode(SaveMode.Overwrite).parquet("swift://my-container.spark/simdata.parquet")

答案 1 :(得分:0)

我认为blockstorage只替换'simdata.parquet''PART-0000 *'仍为cuz是带有app-id'UUID'的'simdata.parquet',当你尝试阅读时,DF读取全部带有'simdata.parquet *'

的文件