应用错误收集

spark在GCS文件夹中写入的dataproc重命名文件

时间：2019-02-21 19:18:35

标签： scala apache-spark google-cloud-dataproc

我正在使用Dataproc来使用Scala实施火花作业。我的火花工作的目的是读取GCS中的数据进行一些转换，然后在GCS下写入结果数据。我们从spark写入获取的文件是PART-00，我想重命名它们，但是我找不到任何解决方案，因为写入的文件在gcs下而不是hdfs下。任何想法如何解决这个请。非常感谢。

1 个答案:

答案 0 :(得分：1)

在Dataproc群集上，除了使用完整的“ gs：// bucket / filename ...”路径外，您仍然可以像对HDFS一样对GCS运行相同的hadoop fs -mv命令。 / p>

重命名文件夹中的所有文件
重命名文件夹中的多个文件
为什么使用saveAsTextFile时，在Google Dataproc中运行的Spark会在外部存储（GCS）上存储临时文件而不是本地磁盘或HDFS？
重命名书面CSV文件Spark
如何合并SPARK数据框创建的文件夹中的所有零件文件，并在scala中重命名为文件夹名称
重命名文件夹中的文件
使用gsutil重命名GCS中的文件夹
由于无法重命名GCS中的错误，Spark Dataproc作业失败
spark在GCS文件夹中写入的dataproc重命名文件
根据Flink

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？