如何连接到docker实例中运行的spark

时间:2018-06-09 20:40:44

标签: python apache-spark docker

我试图在docker实例中站起来Spark,然后从外部python进程连接到它。

上下文:此设置对于Travis中基于Spark的代码的CI / CD非常重要。我也希望用它来为分布式团队建立一致的开发环境。

我该怎么做?

此停泊器图像非常适合旋转火花:https://hub.docker.com/r/jupyter/pyspark-notebook/

通过dockerized笔记本电脑连接开箱即用。 (除了调试之外,我实际上并没有使用笔记本,所以我可能会在以后删除它们。现在,它们是一个很好的调试工具。)

我无法从外部python进程(笔记本或其他)连接。当我启动python或实例化我的SparkContext时,是否需要设置环境变量?

1 个答案:

答案 0 :(得分:0)

您是否正确暴露了火花口?查看您分享的链接(https://hub.docker.com/r/jupyter/pyspark-notebook/),我无法弄清楚您是如何启动容器的。您需要将spark主端口暴露给主机,然后从您的python代码中使用它。您可以共享用于启动容器的命令(或docker-compose.yml)。还可以从python代码中共享您正在使用的URL。