亚马逊雅典娜和融合架构注册表

时间:2018-11-17 11:02:28

标签: amazon-s3 apache-kafka avro amazon-athena confluent-schema-registry

我们正计划将事件从Kafka转移到S3(例如,通过使用kafka connect)。目标是启动服务(例如亚马逊Athena之类),并在导出的Avro事件之上提供查询界面。障碍在于亚马逊Athena avro SerDe(使用org.apache.hadoop.hive.serde2.avro.AvroSerDe)不支持架构注册表用于存储架构ID的魔术字节。您是否知道可以与融合模式注册表一起使用的任何替代方法?

谢谢!

1 个答案:

答案 0 :(得分:1)

使用S3 Connect的AvroConverter不会在文件中放入任何架构ID。实际上,在编写消息之后,您将完全丢失模式ID。

我们有很多Hive表可以很好地处理这些文件,并且用户正在使用Presto的Athena进行查询。 SparkSQL等

注意:如果您想使用AWS Glue,则S3 Connect不(当前从5.x版本开始)提供像HDFS Connector这样的自动Hive分区创建功能,因此如果您想使用AWS Glue,则可能需要寻找替代方法这样。