我想将Zeppelin与我的Spark EMR群集一起使用,但是我不知道如何将它保存在s3上。
这是我要提供给EMR的分类配置:
{
"classification": "zeppelin-env",
"configurations": [
{
"classification": "export",
"properties": {
"ZEPPELIN_NOTEBOOK_S3_ENDPOINT": "https://s3.console.aws.amazon.com/s3/buckets/bucket-data-pipeline/?region=eu-west-2",
"ZEPPELIN_NOTEBOOK_S3_BUCKET": "bucket-data-pipeline",
"ZEPPELIN_NOTEBOOK_S3_USER": "anonymous",
"ZEPPELIN_NOTEBOOK_STORAGE":"org.apache.zeppelin.notebook.repo.GitNotebookRepo,org.apache.zeppelin.notebook.repo.S3NotebookRepo"
}
}
],
"properties": {}
}
到目前为止,我可以在Zeppelin的配置面板上看到配置正在更改:
zeppelin.notebook.s3.bucket: bucket-data-pipeline
zeppelin.notebook.s3.endpoint: https://s3.console.aws.amazon.com/s3/buckets/bucket-data-pipeline
zeppelin.notebook.s3.sse: false
zeppelin.notebook.s3.user: anonymous
zeppelin.notebook.storage: org.apache.zeppelin.notebook.repo.GitNotebookRepo, (<- ?)
但是您可以看到存储没有使用S3NotebookRepo。如果我只输入“ org.apache.zeppelin.notebook.repo.S3NotebookRepo”,则齐柏林飞艇甚至无法正常启动。
有什么想法如何使用EMR正确配置吗?
关于IAM,EMR群集正在使用默认的EMR_DefaultRole运行,该默认EMR_DefaultRole已对s3进行读/写