在hadoop集群中安装python依赖项

时间:2018-02-19 11:52:02

标签: python hadoop apache-spark pyspark dependencies

似乎是古老的问题。我搜索过一个解决方案,但似乎没有任何直截了当的解决方案。我想要的是在hadoop集群上的所有节点上安装python和依赖项(如pandas,numpy等依赖于这些并且不在默认的anaconda安装中)的方法。

我发现的是:

Easiest way to install Python dependencies on Spark executor nodes?

Shipping Python modules in pyspark to other nodes

在这种情况下使用egg肯定不起作用,并且在每个节点上手动安装正是我想要避免的,因为在某些时候你还需要更新所有内容并重复每3个月左右看似不合适高效。

自从这些帖子发布以来,是否有关于此问题(工具)的任何新进展?其他选择?

2018年12月19日编辑:

这是针对大数据教育的,我们最终使用parallel-ssh

有了它,您可以创建cli安装脚本。在我们的例子中,我们下载并安装了anaconda,然后安装了所需的软件包。这工作正常,但必须调整火花配置(如果已经安装)使用这个新版本的python。当然,这也可以通过编辑或替换文件来完成。

总而言之,有很多深洞兔子,可能没有办法依赖DevOps或者如果不可能学习Ansible(我们想要避免,因为它或多或少是另一种新的语言和工具学习)。

0 个答案:

没有答案