Question

我是pyspark的新手，从总体上来说，我对AWS还是新手。

我尝试使用以下方式保存表格：

# Save distinct domains dataframe into SQL table
distinct_domains.write.saveAsTable('distinct_domains', mode='ignore', compression='lz4', header=True)

我以为我要保存一个SQL表，但是显然这是一个Hive表（我刚刚发现它存在）。

我在另一篇文章中读到它去了s3：// my_bucket_name / warehouse

在另一篇文章中，它提到了hdfs：// user / hive / warehouse

我在任何地方都找不到此表。请帮忙。

Answer 1

可能您可以尝试以下方法

1）

df_writer.partitionBy('col1')\
         .saveAsTable('test_table', format='parquet', mode='overwrite',
                      path='s3a://bucket/foo')

2）您可以使用创建一个临时表

myDf.createOrReplaceTempView("tempTable")

然后使用sqlcontext您可以为tempTable创建配置单元表

sqlContext.sql("create table table_name as select * from tempTable");

在AWS saveAsTable中丢失的已创建文件

1 个答案: