Question

在使用Spark（pyspark）时，我已成功集成了Anaconda（创建了一个新的虚拟环境）和jupyter笔记本。这意味着我可以启动jupyter笔记本服务器并在虚拟环境下从jupyter笔记本运行spark相关代码。火花作业将在集群工作节点中执行，集群工作节点也安装了anaconda并配置为在相同的虚拟环境中执行。一切都运行得很好，我甚至可以在所有节点的虚拟环境中安装第三方python库，并从库中调用函数。

在尝试将数据框保存到mysql数据库时，我找到了一些用于此目的的教程，但是，似乎添加JDBC依赖项的唯一方法与spark-submit命令相关，如下所示：

bin/spark-submit --jars external/mysql-connector-java-5.1.40-bin.jar
  /path_to_your_program/spark_database.py

我想知道如何将这个jdbc jar依赖项集成到Anaconda的虚拟环境和Jupyter笔记本中，这样我仍然可以利用jupyter笔记本来测试火花代码？

非常感谢您的回复。

如何为Anaconda和Jupyter for Spark

0 个答案: