我试图在docker实例中站起来Spark,然后从外部python进程连接到它。
上下文:此设置对于Travis中基于Spark的代码的CI / CD非常重要。我也希望用它来为分布式团队建立一致的开发环境。
我该怎么做?
此停泊器图像非常适合旋转火花:https://hub.docker.com/r/jupyter/pyspark-notebook/
通过dockerized笔记本电脑连接开箱即用。 (除了调试之外,我实际上并没有使用笔记本,所以我可能会在以后删除它们。现在,它们是一个很好的调试工具。)
我无法从外部python进程(笔记本或其他)连接。当我启动python或实例化我的SparkContext时,是否需要设置环境变量?
答案 0 :(得分:0)
您是否正确暴露了火花口?查看您分享的链接(https://hub.docker.com/r/jupyter/pyspark-notebook/),我无法弄清楚您是如何启动容器的。您需要将spark主端口暴露给主机,然后从您的python代码中使用它。您可以共享用于启动容器的命令(或docker-compose.yml)。还可以从python代码中共享您正在使用的URL。