如何在spark数据帧中加载avro时合并模式?

时间:2015-12-30 10:51:26

标签: apache-spark pyspark avro

我正在尝试使用https://github.com/databricks/spark-avro读取avro文件,随着时间的推移,avro架构也在不断发展。我将mergeSchema选项设置为true,因为它会合并模式本身,但它不起作用。

sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/')

有什么工作?

1 个答案:

答案 0 :(得分:0)

未针对Spark中的avro文件实现合并架构,并且没有简单的解决方法。一种解决方案是逐个文件(或逐分区)读取您​​的Avro数据作为单独的数据集,然后合并这些数据集。但这可能非常慢。