在AWS saveAsTable中丢失的已创建文件

时间:2019-07-15 11:52:35

标签: amazon-web-services amazon-s3 hive pyspark pyspark-sql

我是pyspark的新手,从总体上来说,我对AWS还是新手。

我尝试使用以下方式保存表格:

# Save distinct domains dataframe into SQL table
distinct_domains.write.saveAsTable('distinct_domains', mode='ignore', compression='lz4', header=True)

我以为我要保存一个SQL表,但是显然这是一个Hive表(我刚刚发现它存在)。

我在另一篇文章中读到它去了s3:// my_bucket_name / warehouse

在另一篇文章中,它提到了hdfs:// user / hive / warehouse

我在任何地方都找不到此表。请帮忙。

1 个答案:

答案 0 :(得分:1)

可能您可以尝试以下方法

1)

df_writer.partitionBy('col1')\
         .saveAsTable('test_table', format='parquet', mode='overwrite',
                      path='s3a://bucket/foo')

2)您可以使用创建一个临时表

myDf.createOrReplaceTempView("tempTable")

然后使用sqlcontext您可以为tempTable创建配置单元表

sqlContext.sql("create table table_name as select * from tempTable");