如何使用pycharm在远程Spark集群中运行应用程序

时间:2019-11-15 16:09:37

标签: python apache-spark pyspark pycharm

我已经在本地系统上安装了PyCharm,并将其配置为在Windows中以本地模式运行spark应用程序。

我的Spark集群在远程Ubuntu盒子中。

如何从Windows上本地安装的PyCharm中在Ubuntu上的远程Spark集群中运行spark应用?

我的目标是在远程集群中运行该应用程序,因此也欢迎解决方法。

1 个答案:

答案 0 :(得分:0)

PyCharm已为此设置。理想情况下,您希望通过ssh来设置部署远程解释器

这允许您将代码库上载到群集(以便pyspark驱动程序可以访问它),但是可以从便携式计算机上运行它。然后,远程解释器负责解决集群上的依赖关系。 在https://www.jetbrains.com/help/pycharm/configuring-remote-interpreters-via-ssh.htmlhttps://www.jetbrains.com/help/pycharm/creating-a-remote-server-configuration.html这里看看。

NB:在开始配置远程解释器之前,最好在集群上安装venvconda并创建一个虚拟环境,这样就不会有任何依赖关系或过时的程序包。然后,您将远程解释器配置指向环境的python二进制文件,例如/app/anaconda3/envs/my_env/bin/python