我了解google dataproc群集可以处理初始化操作 - 这些操作是在创建每个节点时执行的。但是,这仅适用于小型操作,并且不适合创建具有大量依赖关系的节点和用于大型管道的软件。因此,我想知道 - 无论如何将节点加载为自定义图像,或者在创建具有所有安装的节点后将图像旋转,这样您就不必一次又一次地下载内容。
答案 0 :(得分:0)
好问题。
如您所知,initialization actions是目前在群集创建时在群集上安装内容的规范方法。如果你有大量的依赖,或者需要做一些像源代码编译这样的事情,那些初始化操作可能需要一些时间。
我们支持在我们的长期路线图上处理自定义的更好方法。这可能是通过自定义图像或其他一些机制。
在此期间,如果您希望保留一些自定义项并分割启动时间和群集持久性之间的差异,则向上/向下扩展群集可能会提供一些缓解。同样,如果有任何预编译的软件包,那么总是可以节省时间。