从数据中心群集访问存储桶

时间:2018-04-30 19:57:12

标签: google-cloud-dataproc gcsfuse

我正在尝试从Dataproc群集访问存储在Google存储分区中的数据。但是到目前为止,即使我声明我的存储桶文件是公共的,我的作业也会退出并显示该文件不存在的错误。我考虑尝试将存储桶挂载到我的集群机器中的文件夹。为此,我已经在初始化脚本中成功安装了gcsfuse包,当我进入群集时,我能够成功使用gcsfuse将文件添加到我的根文件夹中。但是当我退出ssh时,我的工作仍然声称本地文件夹不存在。如何解决此问题以从我的Dataproc群集访问公共存储桶中的文件?

1 个答案:

答案 0 :(得分:2)

在使用Spark或Hadoop的Dataproc上,访问GCS的规范方法是通过Hadoop的GCS连接器。在Spark和Hadoop作业中,您应该能够以gs://[bucket]/[some/object/path]访问GCS。

此方法应该用于通过SparkContext方法,Hadoop MapReduce FileInputFormat子类以及Hadoop FileSystem API读取作业的输入。