Question

我已经建立了一个Spark Standalone集群（1个主服务器和2个服务器），并且喜欢使用Pysparkling。我的理解是我必须安装h2o_pysparkling_2.0（我正在运行Spark 2.0。 2），主实例上的请求，制表，colorama和future（我正在使用Anaconda发行版，所以我不应该关心numpy之类的东西）：

pip install h2o_pysparkling_2.0
pip install requests 
pip install tabulate
pip install future
pip install colorama

但是，我不知道是否必须在从属实例上安装相同的软件包。我想是这样，但我想知道你们中是否有人有这方面的信息。可用official documentation和blog posts不提供有关此问题的具体信息。

Answer 1

python依赖项需要在运行Spark / Sparkling Water的所有节点上都可用 - 这意味着在执行程序和驱动程序上。

这是因为操作是并行执行的，并且需要与驱动程序相同的依赖性。我建议的是在统一环境中运行你的Spark应用程序 - 即，具有相同的环境，所有spark执行器和驱动程序的依赖关系以防止一堆问题

Spark Standalone集群中的苏打水（pysparkling）

1 个答案: