我想创建一个表,该表的复杂类型从同一模式的avro数据中删除。这是因为Impala不会跳过复杂类型。 平台是CDH 6.0.1
例如:
Employee(raw data)
- name : string
- age : int
- additional-info : map<string, string>
Employee(Hive table 1)
- name : string
- age : int
- additional-info : map<string, string>
Employee_For_Implala(Hive table 2)
- name : string
- age : int
管道:
KafkaProducer(平均字节)-Kafka-Flume-HDFS-Hive(Impala)
Flume:KafkaSource-频道-Sink(AvroEventSerializer $ Builder)
我尝试更改接收器(serializer.schemaURL,删除“复杂类型”字段),但失败。
我现在正在尝试使用吗啡。但这也失败了。
有更好的方法吗?