Spark Avro to parquet在数字字段中写入空值

时间:2017-01-05 18:41:31

标签: apache-kafka apache-spark-sql avro parquet

我将spark数据框保存为镶木地板文件,数据框包含从avro对象构建的行。相同的确切代码在这里 - https://stackoverflow.com/a/41491999/2440775

我面临的挑战是,当输入数据中缺少整数字段时,我打算能够使用空值。 Avro似乎允许使用Union类型,但是当我没有指定默认值或指定默认值" null"在avsc中,我得到的错误如下:

Caused by: org.apache.avro.AvroRuntimeException: Field xxx type:LONG pos:7 not set and has no default value
    at org.apache.avro.generic.GenericData.getDefaultValue(GenericData.java:984)
    at org.apache.avro.data.RecordBuilderBase.defaultValue(RecordBuilderBase.java:135)

Or

Caused by: org.apache.avro.AvroRuntimeException: Field xxx type:UNION pos:7 not set and has no default value
    at org.apache.avro.generic.GenericData.getDefaultValue(GenericData.java:984)
    at org.apache.avro.data.RecordBuilderBase.defaultValue(RecordBuilderBase.java:135)

如果我写了一个默认值" 0",那么saveAsParquet效果很好

我也尝试过更改avro规范以获得" null"首先键入,因为union选择第一个元素的类型。

"type": ["null","long"], "default": null

这导致如下例外:

org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0, localhost): java.lang.ClassCastException: java.lang.String cannot be cast to java.lang.Long

在avro架构中更改long和null的顺序会导致以下异常

引起:org.apache.avro.AvroTypeException:long的非数字默认值:null

1 个答案:

答案 0 :(得分:1)

我没有这样的解决方案,但找到了解决方法。我从avro对象构建Row的方法是从avro对象创建一个列表,然后对其执行Row.fromSeq。解决方法检查默认值0和int或long的数据类型。如果是默认值,则添加null。因此,选择默认值时必须小心。

public static List avroToList(AvroData a) throws UnsupportedEncodingException{
        List l = new ArrayList<>();
        for (Schema.Field f : a.getSchema().getFields()) {
            Object value = a.get(f.name());
            if (value == null) {
                l.add(null);
            }
            else {
                switch (f.schema().getType().getName()){
                    case "union":
                        l.add(value.toString());
                        break;

                    case "int":
                        if(value == 0) {l.add(null);}
                        else {l.add(Integer.valueOf(value.toString()));}
                      break;

                    case "long":
                        if(value == 0L) {l.add(null);}
                        else {l.add(Long.valueOf(value.toString()));}
                        break;

                    default:l.add(value);
                        break;
                }

            }
        }
        return l;
    }

avsc文件的类型信息如下

"type": "long",  "default": 0