我目前正在使用findspark在jupyter笔记本中获取火花上下文。据我了解,此方法仅支持RDD,不支持spark数据帧或sparkSQL。
我已按照该线程上最喜欢的帖子中的说明进行操作 How do I run pyspark with jupyter notebook?
,但是更改环境变量后,即使在bash中,pyspark也无法启动。在文章中更改环境变量之前,我制作了一个AMI并将其回滚。 Pyspark当前在Bash中工作。
我注意到其他人评论使用docker。 https://hub.docker.com/r/jupyter/all-spark-notebook/
当前,我的系统在EC2上运行ubuntu 18.04。我在linux-brew上安装了Apache Spark。 Jupyter和findspark安装在Conda环境中。
目标是在jupyter上拥有一个pyspark(rspark,任何spark)内核,该内核可以支持Apache Spark中的所有库。我想在一台机器上运行spark,以便我可以低成本开发和测试代码。我已经使用了aws elastic map reduce来获得更可扩展的解决方案,并打算在我的单节点火花机上构建脚本之后使用它(以保持较低的成本)。
几个问题:
其他一些信息-SPARK_HOME没有在我的环境中设置,我不得不将路径传递给findspark的构造函数。 findspark.init('/home/ubuntu/.linuxbrew/Cellar/apache-spark/2.4.5/libexec')
非常感谢您抽出宝贵的时间,希望这个问题是适当且详细的