标签: pyspark hdfs parquet
让我首先从我的场景开始: 我有一个巨大的数据帧存储在HDFS中。我在Spark会话中加载数据框 并创建一个新列,而不更改任何现有内容。之后,我想将数据帧存储到HDFS的原始目录中。
现在,我知道,我几乎可以用df.parquet.write("my_df_path", mode="overwrite")的方式处理spark的写操作。由于数据量巨大,因此我正在研究是否存在所谓的逐列追加模式或方法,即不会将完整的数据帧仅将差异写回到存储的数据中。最终目标是为HDFS系统节省内存和计算量。
df.parquet.write("my_df_path", mode="overwrite")