Jupyter笔记本上的Pyspark内核

时间:2020-05-29 05:33:27

标签: python docker apache-spark pyspark jupyter-notebook

我目前正在使用findspark在jupyter笔记本中获取火花上下文。据我了解,此方法仅支持RDD,不支持spark数据帧或sparkSQL。

我已按照该线程上最喜欢的帖子中的说明进行操作 How do I run pyspark with jupyter notebook?

,但是更改环境变量后,即使在bash中,pyspark也无法启动。在文章中更改环境变量之前,我制作了一个AMI并将其回滚。 Pyspark当前在Bash中工作。

我注意到其他人评论使用docker。 https://hub.docker.com/r/jupyter/all-spark-notebook/

当前,我的系统在EC2上运行ubuntu 18.04。我在linux-brew上安装了Apache Spark。 Jupyter和findspark安装在Conda环境中。

目标是在jupyter上拥有一个pyspark(rspark,任何spark)内核,该内核可以支持Apache Spark中的所有库。我想在一台机器上运行spark,以便我可以低成本开发和测试代码。我已经使用了aws elastic map reduce来获得更可扩展的解决方案,并打算在我的单节点火花机上构建脚本之后使用它(以保持较低的成本)。

几个问题:

  1. 我的目标是否可行,或者是否有更好的方法来获得相同的结果? (例如,只需使用最少的硬件即可使用aws Elastic Map Reduce,或者仅使用VIM和bash进行pyspark)
  2. 即使我从未使用过Docker,我会更好地使用Docker(https://hub.docker.com/r/jupyter/all-spark-notebook/)吗?这对我的未来事业有好处吗?
  3. 如果Docker是更好的选择,我会使用ec2 ubuntu 18.04还是其他亚马逊服务(如ecs)。
  4. 要让pyspark内核在jupyter笔记本中运行,我是否缺少一小步?

其他一些信息-SPARK_HOME没有在我的环境中设置,我不得不将路径传递给findspark的构造函数。 findspark.init('/home/ubuntu/.linuxbrew/Cellar/apache-spark/2.4.5/libexec')

非常感谢您抽出宝贵的时间,希望这个问题是适当且详细的

0 个答案:

没有答案