似乎是古老的问题。我搜索过一个解决方案,但似乎没有任何直截了当的解决方案。我想要的是在hadoop集群上的所有节点上安装python和依赖项(如pandas,numpy等依赖于这些并且不在默认的anaconda安装中)的方法。
我发现的是:
Easiest way to install Python dependencies on Spark executor nodes?
Shipping Python modules in pyspark to other nodes
在这种情况下使用egg肯定不起作用,并且在每个节点上手动安装正是我想要避免的,因为在某些时候你还需要更新所有内容并重复每3个月左右看似不合适高效。
自从这些帖子发布以来,是否有关于此问题(工具)的任何新进展?其他选择?
2018年12月19日编辑:
这是针对大数据教育的,我们最终使用parallel-ssh。
有了它,您可以创建cli安装脚本。在我们的例子中,我们下载并安装了anaconda,然后安装了所需的软件包。这工作正常,但必须调整火花配置(如果已经安装)使用这个新版本的python。当然,这也可以通过编辑或替换文件来完成。
总而言之,有很多深洞兔子,可能没有办法依赖DevOps或者如果不可能学习Ansible(我们想要避免,因为它或多或少是另一种新的语言和工具学习)。