我已经在本地系统上安装了PyCharm,并将其配置为在Windows中以本地模式运行spark应用程序。
我的Spark集群在远程Ubuntu盒子中。
如何从Windows上本地安装的PyCharm中在Ubuntu上的远程Spark集群中运行spark应用?
我的目标是在远程集群中运行该应用程序,因此也欢迎解决方法。
答案 0 :(得分:0)
PyCharm已为此设置。理想情况下,您希望通过ssh
来设置部署和远程解释器。
这允许您将代码库上载到群集(以便pyspark
驱动程序可以访问它),但是可以从便携式计算机上运行它。然后,远程解释器负责解决集群上的依赖关系。
在https://www.jetbrains.com/help/pycharm/configuring-remote-interpreters-via-ssh.html和https://www.jetbrains.com/help/pycharm/creating-a-remote-server-configuration.html这里看看。
NB:在开始配置远程解释器之前,最好在集群上安装venv
或conda
并创建一个虚拟环境,这样就不会有任何依赖关系或过时的程序包。然后,您将远程解释器配置指向环境的python
二进制文件,例如/app/anaconda3/envs/my_env/bin/python
。