我正在尝试从Dataproc群集访问存储在Google存储分区中的数据。但是到目前为止,即使我声明我的存储桶文件是公共的,我的作业也会退出并显示该文件不存在的错误。我考虑尝试将存储桶挂载到我的集群机器中的文件夹。为此,我已经在初始化脚本中成功安装了gcsfuse包,当我进入群集时,我能够成功使用gcsfuse将文件添加到我的根文件夹中。但是当我退出ssh时,我的工作仍然声称本地文件夹不存在。如何解决此问题以从我的Dataproc群集访问公共存储桶中的文件?
答案 0 :(得分:2)
在使用Spark或Hadoop的Dataproc上,访问GCS的规范方法是通过Hadoop的GCS连接器。在Spark和Hadoop作业中,您应该能够以gs://[bucket]/[some/object/path]
访问GCS。
此方法应该用于通过SparkContext方法,Hadoop MapReduce FileInputFormat子类以及Hadoop FileSystem API读取作业的输入。