我想在python中使用spark jdbc。第一步是添加一个jar:
%AddJar http://central.maven.org/maven2/org/apache/hive/hive-jdbc/2.0.0/hive-jdbc-2.0.0.jar -f
然而,回应:
ERROR: Line magic function `%AddJar` not found.
如何在python脚本中添加JDBC jar文件?
答案 0 :(得分:2)
我认为这不可能在Notebook的Python内核中,因为%Addjar是笔记本中的scala内核魔术函数。
您需要依赖服务提供程序将此jar添加到python内核。
你可以尝试的另一件事是sc.addjar()但不确定它是如何工作的。
Add jar to pyspark when using notebook
谢谢, 查尔斯。
答案 1 :(得分:2)
目前,这不仅仅是来自python笔记本;但它被理解为一项重要的要求。在支持此功能之前,您可以执行的操作来自您的python笔记本的同一个spark服务实例,从那里创建一个scala笔记本和%AddJar
。然后,同一个spark服务实例的所有python笔记本都可以访问它。对于从scala nb添加jar时处于活动状态的py笔记本,您需要重新启动它们的内核。
请注意,这适用于Jupyter 4+上的笔记本实例,但不一定适用于早期的IPython笔记本实例;检查帮助中的版本 - >关于从笔记本的菜单。最近创建的任何新笔记本实例都将在Jupyter 4 +上。
答案 2 :(得分:1)
你可以试试这个:
spark.sparkContext.addFile("filename")