我们公司正在建立一套通用的内部Spark功能和作业,我想确保我们的数据科学家在齐柏林飞艇上原型时能够访问所有这些功能。
理想情况下,我想让他们在AWS EMR上启动Zeppelin笔记本,并让我们构建的依赖项jar自动加载到其上,而无需他们每次手动手动输入maven信息(私有仓库位置/凭据,包裹信息等)。
现在,我们在S3上加载了依赖项jar,通过一些工作,我们可以得到一个私有的maven存储库来托管它。
我看到ZEPPELIN_INTERPRETER_DIR节省了解释器设置,但我认为它不能从常见的默认位置(例如S3等)加载
是否可以告诉EMR群集上的齐柏林飞艇从公共位置加载其解释器设置?我不能成为第一个想要这个的人。
我曾经尝试过但尚未尝试过的其他想法:
具有一个脚本,该脚本使用aws cmd行选项启动具有为您预先准备的所有必需设置的EMR群集。 (如果我们无法使Maven工作,还可以上传.jar依赖项)
使用基础结构代码框架以所需的设置启动集群。
答案 0 :(得分:1)
我认为无法告诉EMR从公共位置加载设置。您包括的第一个想法是进入imo的方式-您将aws emr create ...
,并且创建过程将包括一个Shell脚本步骤,该步骤是通过从S3下载感兴趣的/etc/zeppelin/conf.dist/interpreter.json
来替换interpreter.json
硬重启齐柏林飞艇(sudo stop zeppelin; sudo start zeppelin
)。