我是pyspark的新手,从总体上来说,我对AWS还是新手。
我尝试使用以下方式保存表格:
# Save distinct domains dataframe into SQL table
distinct_domains.write.saveAsTable('distinct_domains', mode='ignore', compression='lz4', header=True)
我以为我要保存一个SQL表,但是显然这是一个Hive表(我刚刚发现它存在)。
我在另一篇文章中读到它去了s3:// my_bucket_name / warehouse
在另一篇文章中,它提到了hdfs:// user / hive / warehouse
我在任何地方都找不到此表。请帮忙。
答案 0 :(得分:1)
可能您可以尝试以下方法
1)
df_writer.partitionBy('col1')\
.saveAsTable('test_table', format='parquet', mode='overwrite',
path='s3a://bucket/foo')
2)您可以使用创建一个临时表
myDf.createOrReplaceTempView("tempTable")
然后使用sqlcontext您可以为tempTable创建配置单元表
sqlContext.sql("create table table_name as select * from tempTable");