如何指定saveAsTable将文件保存到的路径?

时间:2015-06-16 18:04:38

标签: apache-spark pyspark apache-spark-sql

我正在尝试使用DataFrameWriter将数据帧保存到Spark1.4中的pyspark中的S3

df = sqlContext.read.format("json").load("s3a://somefile")
df_writer = pyspark.sql.DataFrameWriter(df)
df_writer.partitionBy('col1')\
         .saveAsTable('test_table', format='parquet', mode='overwrite')

镶木地板文件转到“/ tmp / hive / warehouse / ....”,这是我司机的本地tmp目录。

我确实将hive-site.xml中的hive.metastore.warehouse.dir设置为“s3a:// ....”位置,但是火花似乎与我的hive仓库设置无关。

2 个答案:

答案 0 :(得分:24)

使用path

df_writer.partitionBy('col1')\
         .saveAsTable('test_table', format='parquet', mode='overwrite',
                      path='s3a://bucket/foo')

答案 1 :(得分:0)

您可以使用insertInto(tablename)覆盖自1.4

以来的现有表格