如何在jupyter笔记本中运行spark-submit?

时间:2017-09-19 09:54:08

标签: python apache-spark pyspark jupyter

我试图在jupyter笔记本中运行spark-submit作业来从网络数据库中提取数据:

!spark-submit --packages org.mongodb.spark:mongo-spark-connector_2.10:2.0.0 script.py

并收到此消息:

  

jupyter:' /home/user/script.py'不是Jupyter命令

是否有从笔记本提交的选项。

KR

2 个答案:

答案 0 :(得分:2)

如果它是ipykernel,我认为没有要求进行点火提交,那么您已经处于交互式火花模式,其中sparkContextsqlContext已经创建并且可用于整个会话你内核了。 好像你正试图创建一个级联排序操作,即在spark应用程序中有spark应用程序等等。你不能拥有Spark。

你可以启动一个普通的python内核,然后使用spark-submit或其他类似的库和函数运行Popen作为shell命令。

答案 1 :(得分:1)

使用shell magic:

%%sh
spark-submit --packages org.mongodb.spark:mongo-spark-connector_2.10:2.0.0 script.py

查看更多魔法here