我正在尝试使用https://github.com/databricks/spark-avro读取avro文件,随着时间的推移,avro架构也在不断发展。我将mergeSchema选项设置为true
,因为它会合并模式本身,但它不起作用。
sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/')
有什么工作?
答案 0 :(得分:0)
未针对Spark中的avro文件实现合并架构,并且没有简单的解决方法。一种解决方案是逐个文件(或逐分区)读取您的Avro数据作为单独的数据集,然后合并这些数据集。但这可能非常慢。