我是Spark的新手。我在Ubuntu 16.04.3服务器上以Stand-Alone-Mode安装了Spark 2.3.0。到目前为止运行良好。现在我想开始使用pyspark进行开发,因为我使用python比使用scala有更多的经验。
确定。即使在谷歌使用谷歌一段时间后,我也不确定如何设置我的开发环境。我的本地机器是windows 10笔记本电脑配置了eclipse neon和pydev。设置的必要步骤是什么,我可以在本地环境中开发并将我的模块提交到服务器上的spark集群?
感谢帮助。
答案 0 :(得分:0)
使用spark-submit在本地或群集上运行。有很多在线教程。我喜欢AWS documentation解释架构,有示例火花代码,并提供本地和远程命令的示例。即使您不使用AWS EMR,基础也是一样的。
尝试一下,让我们知道它是怎么回事