spark在GCS文件夹中写入的dataproc重命名文件

时间:2019-02-21 19:18:35

标签: scala apache-spark google-cloud-dataproc

我正在使用Dataproc来使用Scala实施火花作业。我的火花工作的目的是读取GCS中的数据进行一些转换,然后在GCS下写入结果数据。我们从spark写入获取的文件是PART-00,我想重命名它们,但是我找不到任何解决方案,因为写入的文件在gcs下而不是hdfs下。任何想法如何解决这个请。非常感谢。

1 个答案:

答案 0 :(得分:1)

在Dataproc群集上,除了使用完整的“ gs:// bucket / filename ...”路径外,您仍然可以像对HDFS一样对GCS运行相同的hadoop fs -mv命令。 / p>