在使用Spark(pyspark)时,我已成功集成了Anaconda(创建了一个新的虚拟环境)和jupyter笔记本。这意味着我可以启动jupyter笔记本服务器并在虚拟环境下从jupyter笔记本运行spark相关代码。火花作业将在集群工作节点中执行,集群工作节点也安装了anaconda并配置为在相同的虚拟环境中执行。一切都运行得很好,我甚至可以在所有节点的虚拟环境中安装第三方python库,并从库中调用函数。
在尝试将数据框保存到mysql数据库时,我找到了一些用于此目的的教程,但是,似乎添加JDBC依赖项的唯一方法与spark-submit命令相关,如下所示:
bin/spark-submit --jars external/mysql-connector-java-5.1.40-bin.jar
/path_to_your_program/spark_database.py
我想知道如何将这个jdbc jar依赖项集成到Anaconda的虚拟环境和Jupyter笔记本中,这样我仍然可以利用jupyter笔记本来测试火花代码?
非常感谢您的回复。