我正在使用Dataproc来使用Scala实施火花作业。我的火花工作的目的是读取GCS中的数据进行一些转换,然后在GCS下写入结果数据。我们从spark写入获取的文件是PART-00,我想重命名它们,但是我找不到任何解决方案,因为写入的文件在gcs下而不是hdfs下。任何想法如何解决这个请。非常感谢。
答案 0 :(得分:1)
在Dataproc群集上,除了使用完整的“ gs:// bucket / filename ...”路径外,您仍然可以像对HDFS一样对GCS运行相同的hadoop fs -mv
命令。 / p>