我使用python做hadoop流媒体。我们使用AWS hadoop流分布式系统,该系统具有主节点和四个从节点。如果我需要在python上安装软件包,我需要在系统的每个节点上安装软件包才能使其正常工作。但在我的情况下,即使我在系统的每个节点上安装python包之后,python hadoop流式传输作业仍然无法工作。我想知道为什么。谢谢!
更多详情:
我使用python hadoop streaming来做mapreduce工作。我使用的hadoop系统是一个AWS hadoop分布式系统,它有一个主节点和四个从节点。有时候,我需要在python上安装软件包。它是一个分布式系统,理论上,如果我需要在python上安装一个包,我需要在分布式系统的每个节点上安装python包,以使流工作正常工作。但事实上,即使在hadoop分布式系统的每个节点上安装所需的python包之后,hadoop流式传输作业仍然失败。但在我删除" import some-package"在hadoop流式传输python脚本中,并相应地更改代码,hadoop流式python作业将起作用。所以问题在于新添加的python包。我很困惑,为什么我不能使python流工作工作,即使我在hadoop分布式系统的每个节点的python上安装python包。