应用错误收集

这是由于spark-avro包的行为造成的。

写入Avro时，spark-avro会将所有内容写为给定类型的联合以及null选项。

换句话说，"string"变为["string", "null"]，因此每个字段都可以为空。

如果您的输入模式已经只包含可空字段，那么这个问题就不会显而易见了。

在spark-avro页面上没有提及，但在某些Cloudera documentation中被描述为spark-avro的限制之一：

由于Spark正在转换数据类型，请注意以下事项：


枚举类型被删除 - Avro枚举类型在读入Spark时会成为字符串，因为Spark不支持   枚举类型。

输出中的联合 - Spark将所有内容写为给定类型的联合以及null选项。

Avro架构更改 - Spark将所有内容都读入内部表示。即使你只是阅读然后写入数据，   输出的架构将有所不同。

Spark模式重新排序 - Spark在将它们写入磁盘时重新排序其模式中的元素，以便元素存在   分区是最后的元素。

另见github问题：（spark-avro 92）

在写入Avro时，Spark会更改架构

1 个答案: