python - Jupyter笔记本上的Pyspark内核

我目前正在使用findspark在jupyter笔记本中获取火花上下文。据我了解，此方法仅支持RDD，不支持spark数据帧或sparkSQL。

我已按照该线程上最喜欢的帖子中的说明进行操作 How do I run pyspark with jupyter notebook?

，但是更改环境变量后，即使在bash中，pyspark也无法启动。在文章中更改环境变量之前，我制作了一个AMI并将其回滚。 Pyspark当前在Bash中工作。

我注意到其他人评论使用docker。 https://hub.docker.com/r/jupyter/all-spark-notebook/

当前，我的系统在EC2上运行ubuntu 18.04。我在linux-brew上安装了Apache Spark。 Jupyter和findspark安装在Conda环境中。

目标是在jupyter上拥有一个pyspark（rspark，任何spark）内核，该内核可以支持Apache Spark中的所有库。我想在一台机器上运行spark，以便我可以低成本开发和测试代码。我已经使用了aws elastic map reduce来获得更可扩展的解决方案，并打算在我的单节点火花机上构建脚本之后使用它（以保持较低的成本）。

几个问题：

我的目标是否可行，或者是否有更好的方法来获得相同的结果？（例如，只需使用最少的硬件即可使用aws Elastic Map Reduce，或者仅使用VIM和bash进行pyspark）
即使我从未使用过Docker，我会更好地使用Docker（https://hub.docker.com/r/jupyter/all-spark-notebook/）吗？这对我的未来事业有好处吗？
如果Docker是更好的选择，我会使用ec2 ubuntu 18.04还是其他亚马逊服务（如ecs）。
要让pyspark内核在jupyter笔记本中运行，我是否缺少一小步？

其他一些信息-SPARK_HOME没有在我的环境中设置，我不得不将路径传递给findspark的构造函数。 findspark.init('/home/ubuntu/.linuxbrew/Cellar/apache-spark/2.4.5/libexec')

非常感谢您抽出宝贵的时间，希望这个问题是适当且详细的

Jupyter笔记本上的Pyspark内核

0 个答案: