你如何整合这个新的Spark libary for python?

时间:2015-12-03 14:13:34

标签: python scala apache-spark

我使用pyspark命令使用spark和python。

我遇到了这个新图书馆

https://github.com/databricks/spark-csv

我希望将其集成到用python编写的spark程序中。

我已经下载了上面链接中显示的完整代码库,但不确定如何从那里继续。我应该把它的内容复制到哪里吗?

任何指导都会有所帮助,因为我仍在学习scala和spark,并希望使用上面的库代码。

1 个答案:

答案 0 :(得分:2)

重复来自the README file的信息。要在脚本中使用spark-csv,每次执行--packagesspark-submit shell时都应使用pyspark选项。