(bdutil)无法让hadoop / spark群集在新安装下运行

时间:2017-02-10 16:35:29

标签: apache-spark google-hadoop

我正在GCE中设置一个小集群来玩它但是虽然创建了实例但是有些失败会阻止它运行。我正在按照https://cloud.google.com/hadoop/downloads

中的步骤进行操作

到目前为止,我正在使用(截至目前)新安装的最新版本的gcloud(143.0.0)和bdutil(1.3.5)。

./bdutil deploy -e extensions/spark/spark_env.sh

使用 debian-8 作为图像(因为bdutil仍然使用debian-7-backports)。

在某些时候我得到了

Fri Feb 10 16:19:34 CET 2017: Command failed: wait ${SUBPROC} on line 326.
Fri Feb 10 16:19:34 CET 2017: Exit code of failed command: 1

完整的调试输出在https://gist.github.com/jlorper/4299a816fc0b140575ed70fe0da1f272 (项目ID和存储桶名称已更改)

创建了实例,但是甚至没有安装spark。挖了一下我设法运行spark安装并在ssh之后在master中启动hadoop命令。但是在启动spark-shell

时它失败了
17/02/10 15:53:20 INFO gcs.GoogleHadoopFileSystemBase: GHFS version: 1.4.5-hadoop1
17/02/10 15:53:20 INFO gcsio.FileSystemBackedDirectoryListCache: Creating '/hadoop_gcs_connector_metadata_cache' with createDirectories()...
java.lang.RuntimeException: java.lang.RuntimeException: java.nio.file.AccessDeniedException: /hadoop_gcs_connector_metadata_cache
    at org.apache.hadoop.hive.ql.session.SessionState.start(SessionState.java:522)

且无法import sparkSQL。对于我所读到的内容,应该自动启动。

到目前为止,我有点迷失,不知道还能做什么。 我错过了任何一步吗?是否有任何命令错误?提前谢谢。

更新:已解决

正如在公认的解决方案中所指出的,我克隆了repo并且创建了集群而没有任何问题。尝试启动spark-shell虽然它给了

java.lang.RuntimeException: java.io.IOException: GoogleHadoopFileSystem has been closed or not initialized.`

这听起来像连接器没有正确初始化,所以运行后

 ./bdutil --env_var_files extensions/spark/spark_env.sh,bigquery_env.sh run_command_group install_connectors

它按预期工作。

1 个答案:

答案 0 :(得分:0)

https://cloud.google.com/hadoop/downloads上的bdutil的最后一个版本有点陈旧,我建议在github上使用bdutil版本:https://github.com/GoogleCloudPlatform/bdutil