使用 pyspark 更改存储在 hdfs 中的镶木地板文件的文件名

时间:2021-02-18 19:18:54

标签: apache-spark hadoop pyspark hdfs

我使用 pyspark 创建了一个镶木地板文件,如下所示:

df.repartition(1).write.parquet('hdfs://master:9000/movie_data_parquet/movie_genress')

此文件存储在我的 hdfs 中,名称如下:

part-00000-0413dc05-4ffb-474e-98db-ac3c09f66f2c-c000.snappy.parquet

我想做的是更改此名称。在线搜索后,我尝试使用实现以下说明的 hadoop API:

fs = spark._jvm.org.apache.hadoop.fs.FileSystem.get(spark._jsc.hadoopConfiguration())
Path = sc._gateway.jvm.org.apache.hadoop.fs.Path
fs.rename(Path("hdfs://master:9000/movie_data_parquet/movie_genress/part-00000-0413dc05-4ffb-474e-98db-ac3c09f66f2c-c000.snappy.parquet"),Path("hdfs://master:9000/movie_data_parquet/movie_data_parquet/movie_genress/a.snappy.parquet"))

代码运行时没有错误或警告,但我的分布式文件系统中没有任何变化。有什么关于我做错了什么的想法吗?

提前致谢

0 个答案:

没有答案
相关问题