我将spark数据框保存为镶木地板文件,数据框包含从avro对象构建的行。相同的确切代码在这里 - https://stackoverflow.com/a/41491999/2440775
我面临的挑战是,当输入数据中缺少整数字段时,我打算能够使用空值。 Avro似乎允许使用Union类型,但是当我没有指定默认值或指定默认值" null"在avsc中,我得到的错误如下:
Caused by: org.apache.avro.AvroRuntimeException: Field xxx type:LONG pos:7 not set and has no default value
at org.apache.avro.generic.GenericData.getDefaultValue(GenericData.java:984)
at org.apache.avro.data.RecordBuilderBase.defaultValue(RecordBuilderBase.java:135)
Or
Caused by: org.apache.avro.AvroRuntimeException: Field xxx type:UNION pos:7 not set and has no default value
at org.apache.avro.generic.GenericData.getDefaultValue(GenericData.java:984)
at org.apache.avro.data.RecordBuilderBase.defaultValue(RecordBuilderBase.java:135)
如果我写了一个默认值" 0",那么saveAsParquet效果很好
我也尝试过更改avro规范以获得" null"首先键入,因为union选择第一个元素的类型。
"type": ["null","long"], "default": null
这导致如下例外:
org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 0.0 failed 1 times, most recent failure: Lost task 0.0 in stage 0.0 (TID 0, localhost): java.lang.ClassCastException: java.lang.String cannot be cast to java.lang.Long
在avro架构中更改long和null的顺序会导致以下异常
引起:org.apache.avro.AvroTypeException:long的非数字默认值:null
答案 0 :(得分:1)
我没有这样的解决方案,但找到了解决方法。我从avro对象构建Row的方法是从avro对象创建一个列表,然后对其执行Row.fromSeq。解决方法检查默认值0和int或long的数据类型。如果是默认值,则添加null。因此,选择默认值时必须小心。
public static List avroToList(AvroData a) throws UnsupportedEncodingException{
List l = new ArrayList<>();
for (Schema.Field f : a.getSchema().getFields()) {
Object value = a.get(f.name());
if (value == null) {
l.add(null);
}
else {
switch (f.schema().getType().getName()){
case "union":
l.add(value.toString());
break;
case "int":
if(value == 0) {l.add(null);}
else {l.add(Integer.valueOf(value.toString()));}
break;
case "long":
if(value == 0L) {l.add(null);}
else {l.add(Long.valueOf(value.toString()));}
break;
default:l.add(value);
break;
}
}
}
return l;
}
avsc文件的类型信息如下
"type": "long", "default": 0