我们希望将Python 3.x与NumPy,Pandas等软件包一起使用。在Spark之上。
我们知道使用这些软件包的Python分发需要在Spark的所有数据节点上存在/分发才能使用这些软件包。
不是在所有数据节点上设置这个Python发行版,而是将它放在所有数据节点连接的NAS挂载上吗?
由于
答案 0 :(得分:2)
是的,如果你拥有一台好的NAS,那么将这些软件包放在所有数据节点所连接的NAS上都可以使用几十个甚至100个节点。但是,当所有节点尝试导入所需的文件时,此解决方案将按比例分解。 Python导入机制使用了很多对文件系统的os.stat调用,当所有节点都尝试加载相同的代码时,这会导致瓶颈。