数据节点上Spark的Python包

时间:2016-02-26 15:32:07

标签: python numpy apache-spark pyspark

我们希望将Python 3.x与NumPy,Pandas等软件包一起使用。在Spark之上。

我们知道使用这些软件包的Python分发需要在Spark的所有数据节点上存在/分发才能使用这些软件包。

不是在所有数据节点上设置这个Python发行版,而是将它放在所有数据节点连接的NAS挂载上吗?

由于

1 个答案:

答案 0 :(得分:2)

是的,如果你拥有一台好的NAS,那么将这些软件包放在所有数据节点所连接的NAS上都可以使用几十个甚至100个节点。但是,当所有节点尝试导入所需的文件时,此解决方案将按比例分解。 Python导入机制使用了很多对文件系统的os.stat调用,当所有节点都尝试加载相同的代码时,这会导致瓶颈。