Spark 2.0 CSV错误

时间:2017-01-18 17:59:55

标签: csv apache-spark apache-spark-2.0 databricks

我正在从1.6升级到spark 2,并且在CSV文件中读取问题。在spark 1.6中,我会在CSV文件中读到这样的内容。

val df = sqlContext.read.format("com.databricks.spark.csv")
.option("header", "true")
.load(fileName)

现在我使用文档中给出的以下代码:

val df = spark.read
.option("header", "true")
.csv(fileName)

运行时会出现以下错误:

"Exception in thread "main" java.lang.RuntimeException: Multiple sources found for csv (org.apache.spark.sql.execution.datasources.csv.CSVFileFormat, com.databricks.spark.csv.DefaultSource15), please specify the fully qualified class name."

我认为这是因为我仍然有spark-csv依赖项,但是我删除了该依赖项并重建了应用程序,我仍然得到相同的错误。一旦删除了databricks依赖关系,它仍然是如何找到的?

2 个答案:

答案 0 :(得分:2)

错误消息表示您在运行--packages com.databricks:spark-csv_2.11:1.5.0时拥有spark-shell选项,或者在您的类路径中拥有这些jar。请检查您的课程路径并将其删除。

答案 1 :(得分:-1)

我没有在课程路径中添加任何jar。 我用它来将csv文件加载到spark shell(2.3.1)中。 val df = spark.sqlContext.read.csv('path')