Apache Avro作为Apache Spark 2.4中的内置数据源

时间:2019-02-09 08:16:50

标签: apache-spark

我最近阅读了this文章并尝试了该示例,但是当我运行

val usersDF = spark.read.format("avro")
                        .load("examples/src/main/resources/users.avro")

但是当我尝试运行它时,这给了我一个错误。

  

线程“ main” org.apache.spark.sql.AnalysisException中的异常:   无法找到数据源:avro。 Avro是内置的,但外部数据   自Spark 2.4起的源模块。请按照以下说明部署应用程序   “ Apache Avro数据源指南”的部署部分。在   org.apache.spark.sql.execution.datasources.DataSource $ .lookupDataSource(DataSource.scala:647)

1 个答案:

答案 0 :(得分:0)

在阅读Apache Avro Data Source Guide时,我发现需要使用新的依赖项来更新build.sbt。

val sparkVersion = "2.4.0"
"org.apache.spark" %% "spark-avro" % sparkVersion

此后一切正常。