在Pyspark上创建外部表

时间:2018-08-14 09:21:39

标签: python apache-spark hive pyspark

我想在PySpark上创建外部表,并用我所做的修改覆盖现有数据。

所以,首先,我清理我的数据:

df = spark.sql('SELECT * from data')

for column in box.columns:
     df2 = df.filter(column != df[column])

但是,我应该怎么做才能创建外部表,并用Hive中的新df2覆盖“数据”?

0 个答案:

没有答案