如何在本地使用PYSPARK进行开发并在Spark Cluster上运行?

时间:2018-04-02 07:00:38

标签: python eclipse apache-spark pyspark development-environment

我是Spark的新手。我在Ubuntu 16.04.3服务器上以Stand-Alone-Mode安装了Spark 2.3.0。到目前为止运行良好。现在我想开始使用pyspark进行开发,因为我使用python比使用scala有更多的经验。

确定。即使在谷歌使用谷歌一段时间后,我也不确定如何设置我的开发环境。我的本地机器是windows 10笔记本电脑配置了eclipse neon和pydev。设置的必要步骤是什么,我可以在本地环境中开发并将我的模块提交到服务器上的spark集群?

感谢帮助。

1 个答案:

答案 0 :(得分:0)

使用spark-submit在本地或群集上运行。有很多在线教程。我喜欢AWS documentation解释架构,有示例火花代码,并提供本地和远程命令的示例。即使您不使用AWS EMR,基础也是一样的。

尝试一下,让我们知道它是怎么回事