在SparkSQL中使用Avro架构和Parquet格式读取/写入

时间:2017-01-03 19:13:04

标签: apache-spark apache-spark-sql avro parquet

我正在尝试从SparkSQL编写和读取Parquet文件。出于模式演变的原因,我想在我的写入和读取中使用Avro模式。

我的理解是,这可以在Spark之外(或在Spark中手动)使用,例如AvroParquetWriter和Avro的通用API。但是,我想使用SparkSQL的write()和read()方法(与DataFrameWriter和DataFrameReader一起使用),并与SparkSQL很好地集成(我将编写和阅读数据集)。

我不能为我的生活弄清楚如何做到这一点,我想知道这是否可能。 SparkSQL镶木地板格式似乎支持的唯一选项是“compression”和“mergeSchema” - 即没有用于指定备用模式格式或备用模式的选项。换句话说,似乎没有办法使用SparkSQL API使用Avro架构读/写Parquet文件。但也许我只是错过了什么?

为了澄清,我也理解这基本上只是在写入时将Avro架构添加到Parquet元数据,并且将在读取时添加一个翻译层(Parquet格式 - > Avro架构 - > SparkSQL内部格式)但是将特别允许我为缺失的列添加默认值(Avro架构支持哪些但Parquet架构不支持)。

另外,我不是在寻找一种方法将Avro转换为Parquet,或者将Parquet转换为Avro(而是将它们结合使用),而我并不是在寻找一种在SparkSQL中读/写普通Avro的方法(你可以使用databricks / spark-avro来做到这一点。

1 个答案:

答案 0 :(得分:0)

我正在做类似的事情。我使用avro架构写入镶木地板文件但是,不要把它读作avro。但同样的技术也应该适用于阅读。我不确定这是否是最好的方法,但无论如何: 我有AvroData.avsc,它有avro架构。

KafkaUtils.createDirectStream[String,Array[Byte],StringDecoder,DefaultDecoder,Tuple2[String, Array[Byte]]](ssc, kafkaProps, fromOffsets, messageHandler)


kafkaArr.foreachRDD  { (rdd,time) 
       => { val schema =  SchemaConverters.toSqlType(AvroData.getClassSchema).dataType.asInstanceOf[StructType] val ardd = rdd.mapPartitions{itr =>
              itr.map { r =>
try {
                    val cr = avroToListWithAudit(r._2, offsetSaved, loadDate, timeNow.toString)
                    Row.fromSeq(cr.toArray)
    } catch{
      case e:Exception => LogHandler.log.error("Exception while converting to Avro" + e.printStackTrace())
      System.exit(-1)
      Row(0)  //This is just to allow compiler to accept. On exception, the application will exit before this point
} 
} 
}


  public static List avroToListWithAudit(byte[] kfkBytes, String kfkOffset, String loaddate, String loadtime ) throws IOException {
        AvroData av = getAvroData(kfkBytes);
        av.setLoaddate(loaddate);
        av.setLoadtime(loadtime);
        av.setKafkaOffset(kfkOffset);
        return avroToList(av);
    }



 public static List avroToList(AvroData a) throws UnsupportedEncodingException{
        List<Object> l = new ArrayList<>();
        for (Schema.Field f : a.getSchema().getFields()) {
            String field = f.name().toString();
            Object value = a.get(f.name());
            if (value == null) {
                //System.out.println("Adding null");
                l.add(""); 
            }
            else {
                switch (f.schema().getType().getName()){
                    case "union"://System.out.println("Adding union");
                        l.add(value.toString());
                        break;

                    default:l.add(value);
                        break;
                }

            }
        }
        return l;
    }

getAvroData方法需要具有从原始字节构造avro对象的代码。我也试图找出一种方法来做到这一点,而不必明确指定每个属性setter,但似乎没有。

public static AvroData getAvroData (bytes)
{
AvroData av = AvroData.newBuilder().build();
        try {
            av.setAttr(String.valueOf("xyz"));
        .....
    }
   } 

希望有所帮助