如何在Dataproc集群启动时自动安装Python库?

时间:2015-09-23 17:29:49

标签: hadoop apache-spark google-cloud-platform google-cloud-dataproc

如何在群集启动时自动在我的Dataproc群集上安装Python库?这样可以省去手动登录主节点和/或工作节点以手动安装我需要的库的麻烦。

很高兴知道这种自动安装是否可以在主服务器而不是工作服务器上安装

1 个答案:

答案 0 :(得分:6)

初始化操作是执行此操作的最佳方式。初始化操作是在创建集群时运行的shell脚本。这将允许您自定义集群,例如安装Python库。这些脚本必须存储在Google云端存储中,并可在通过Google Cloud SDK或Google Developers Console创建群集时使用。

以下是在主节点上的群集创建 上安装Python pandas的示例初始化操作。

#!/bin/sh
ROLE=$(/usr/share/google/get_metadata_value attributes/role)
if [[ "${ROLE}" == 'Master' ]]; then 
  apt-get install python-pandas -y
fi

从这个脚本中可以看出,可以用/usr/share/google/get_metadata_value attributes/role识别节点的角色,然后专门对主(或工作)节点执行操作。

您可以查看Google Cloud Dataproc Documentation了解详情