如何告诉PySpark pymongo-spark包的位置?

时间:2018-05-25 18:14:34

标签: mongodb apache-spark hadoop pyspark

我正在使用Ubuntu 14.04 LTS在笔记本电脑上创建数据科学。 Russell Jurney在Agile Data Science的第2章中提供了相关说明。

我需要使用mongo-hadoop包将PySpark配置为与MongoDB通信。

到目前为止,这么好。 git repo目前驻留在我的主目录中。 PyMongo也已安装。

mongo-hadoop installation:

建立mongo-hadoop-spark.jar似乎也进展顺利。我在我的PySpark系统类路径中放了一个副本; PySparkShell表明.jar已经到位:

mongo-hadoop-spark jar file

但是,PySpark仍然无法找到该软件包:

PySpark session

这是我第一次尝试安装这些工具,我正在挣扎。建议?

0 个答案:

没有答案