标签: python apache-spark hive pyspark
我想在PySpark上创建外部表,并用我所做的修改覆盖现有数据。
所以,首先,我清理我的数据:
df = spark.sql('SELECT * from data') for column in box.columns: df2 = df.filter(column != df[column])
但是,我应该怎么做才能创建外部表,并用Hive中的新df2覆盖“数据”?