Question

我正在使用pyspark对csv文件做一些工作，因此我需要从https://repo1.maven.org/maven2/com/databricks/spark-csv_2.11/1.4.0/spark-csv_2.11-1.4.0.jar下载的spark-csv_2.10-1.4.0.jar中导入包

由于代理问题，我将jar下载到了我的本地。

任何人都可以告诉我引用本地jar的正确用法：

以下是我使用的代码：

pyspark --jars /home/rx52019/data/spark-csv_2.10-1.4.0.jar

然而，当我跑步时，它将按照预期将我带到pyspark shell：

df = sqlContext.read.format('com.databricks.spark.csv').options(header='true',inferschema='true').load('hdfs://dev-icg/user/spark/routes.dat')

route.dat已经在hdfs上传到hdfs：//dev-icg/user/spark/routes.dat

它给了我错误：

：java.lang。 NoClassDefFoundError ： org / apache / commons / csv / CSVFormat

如果我跑：

df = sqlContext.read.format('com.databricks.spark.csv').options(header='true',inferschema='true').load('routes.dat')

我收到此错误：

py4j.protocol.Py4JJavaError：调用o72.load时发生错误。：java.lang.NoClassDefFoundError：无法初始化类 com.databricks.spark.csv.package $

任何人都可以帮忙解决这个问题吗？非常感谢你。任何线索都表示赞赏。

Answer 1

执行此操作的正确方法是添加选项（例如，如果您正在启动火花壳）

.dylib

我没有直接使用databricks csvjar，但我使用了netezza连接器来激发他们使用此选项提到的位置