我使用pyspark命令使用spark和python。
我遇到了这个新图书馆
https://github.com/databricks/spark-csv
我希望将其集成到用python编写的spark程序中。
我已经下载了上面链接中显示的完整代码库,但不确定如何从那里继续。我应该把它的内容复制到哪里吗?
任何指导都会有所帮助,因为我仍在学习scala和spark,并希望使用上面的库代码。
答案 0 :(得分:2)
重复来自the README
file的信息。要在脚本中使用spark-csv
,每次执行--packages
或spark-submit
shell时都应使用pyspark
选项。