我想从Zeppelin笔记本中读取位于Amazon S3中的avro文件。我知道Databricks有一个很棒的包spark-avro
。为了将这个jar文件引导到我的集群并使其工作,我需要采取哪些步骤?
当我在笔记本上写这篇文章时,
val df = sqlContext.read.avro("s3n://path_to_avro_files_in_one_bucket/")
我收到以下错误 -
<console>:34: error: value avro is not a member of org.apache.spark.sql.DataFrameReader
我看过this。我想那里发布的解决方案不适用于最新版本的Amazon EMR。
如果有人能给我指点,那真的会有所帮助。
答案 0 :(得分:0)
以下是我如何关联spark-avro依赖项。此方法适用于将任何其他依赖项与spark相关联。
答案 1 :(得分:0)
另一种选择是将--dependencies选项添加到spark-shell或spark提交(这是针对spark 2.x的)
-打包com.databricks:spark-avro_2.11:4.0.0