我已经建立了一个Spark Standalone集群(1个主服务器和2个服务器),并且喜欢使用Pysparkling。我的理解是我必须安装h2o_pysparkling_2.0(我正在运行Spark 2.0。 2),主实例上的请求,制表,colorama和future(我正在使用Anaconda发行版,所以我不应该关心numpy之类的东西):
pip install h2o_pysparkling_2.0
pip install requests
pip install tabulate
pip install future
pip install colorama
但是,我不知道是否必须在从属实例上安装相同的软件包。我想是这样,但我想知道你们中是否有人有这方面的信息。可用official documentation和blog posts不提供有关此问题的具体信息。
答案 0 :(得分:0)
python依赖项需要在运行Spark / Sparkling Water的所有节点上都可用 - 这意味着在执行程序和驱动程序上。
这是因为操作是并行执行的,并且需要与驱动程序相同的依赖性。我建议的是在统一环境中运行你的Spark应用程序 - 即,具有相同的环境,所有spark执行器和驱动程序的依赖关系以防止一堆问题