如何为Anaconda和Jupyter for Spark

时间:2018-04-19 00:55:33

标签: apache-spark pyspark anaconda jupyter

在使用Spark(pyspark)时,我已成功集成了Anaconda(创建了一个新的虚拟环境)和jupyter笔记本。这意味着我可以启动jupyter笔记本服务器并在虚拟环境下从jupyter笔记本运行spark相关代码。火花作业将在集群工作节点中执行,集群工作节点也安装了anaconda并配置为在相同的虚拟环境中执行。一切都运行得很好,我甚至可以在所有节点的虚拟环境中安装第三方python库,并从库中调用函数。

在尝试将数据框保存到mysql数据库时,我找到了一些用于此目的的教程,但是,似乎添加JDBC依赖项的唯一方法与spark-submit命令相关,如下所示:

bin/spark-submit --jars external/mysql-connector-java-5.1.40-bin.jar
  /path_to_your_program/spark_database.py

我想知道如何将这个jdbc jar依赖项集成到Anaconda的虚拟环境和Jupyter笔记本中,这样我仍然可以利用jupyter笔记本来测试火花代码?

非常感谢您的回复。

0 个答案:

没有答案