应用错误收集

从数据中心群集访问存储桶

时间：2018-04-30 19:57:12

标签： google-cloud-dataproc gcsfuse

我正在尝试从Dataproc群集访问存储在Google存储分区中的数据。但是到目前为止，即使我声明我的存储桶文件是公共的，我的作业也会退出并显示该文件不存在的错误。我考虑尝试将存储桶挂载到我的集群机器中的文件夹。为此，我已经在初始化脚本中成功安装了gcsfuse包，当我进入群集时，我能够成功使用gcsfuse将文件添加到我的根文件夹中。但是当我退出ssh时，我的工作仍然声称本地文件夹不存在。如何解决此问题以从我的Dataproc群集访问公共存储桶中的文件？

1 个答案:

答案 0 :(得分：2)

在使用Spark或Hadoop的Dataproc上，访问GCS的规范方法是通过Hadoop的GCS连接器。在Spark和Hadoop作业中，您应该能够以gs://[bucket]/[some/object/path]访问GCS。

此方法应该用于通过SparkContext方法，Hadoop MapReduce FileInputFormat子类以及Hadoop FileSystem API读取作业的输入。