在Zeppelin中添加spark-csv依赖项会产生网络错误

时间:2017-09-20 22:18:40

标签: apache-spark apache-spark-sql emr amazon-emr

在Zeppelin中添加spark-csv依赖项会产生网络错误。 我去了Zeppelin的Spark解释器并添加了Spark-csv依赖。 com.databricks:spark-csv_2.10:1.2.0。我还在参数选项中添加了它。

enter image description here

我重新启动Zeppelin并运行以下命令:

import org.apache.spark.sql.SQLContext

val sqlContext = new SQLContext(sc)
val df = sqlContext.read
    .format("com.databricks.spark.csv")
    .option("header", "true") // Use first line of all files as header
    .option("inferSchema", "true") // Automatically infer data types
    .load("https://github.com/databricks/spark-csv/raw/master/src/test/resources/cars.csv")
df.printSchema()

enter image description here

我是否正确添加了依赖项?

更新

尝试将库更改为com.databricks:spark-csv_2.11:jar:1.6.0并获得以下内容:

设置解释器' spark.spark'时出错:找不到工件com.databricks:spark-csv_2.11:jar:1.6.0 in central(http://repo1.maven.org/maven2/

enter image description here

1 个答案:

答案 0 :(得分:1)

看起来你使用了相当古老的库版本,另外还为scala 2.10(你的火花似乎是2.11)构建了。

将包更改为com.databricks:spark-csv_2.11:1.5.0,它应该可以使用。