我们在AWS上运行Kafka服务,并计划使用Athena / S3长期存储我们的分析数据。是否可以将Kafka与AWS Glue服务一起用于从Kafka阅读并在s3中存储?
答案 0 :(得分:3)
最好的办法是使用Confluent的开源Kafka Connector for S3,因为即使出现故障并重新启动服务,它也能保证一次写入S3。它也是一个实时的流式集成,所以数据立即写入S3而没有额外的延迟。
文档在这里:
源代码在github上:
https://github.com/confluentinc/kafka-connect-storage-cloud
这里的Docker镜像:
https://hub.docker.com/r/confluentinc/cp-kafka-connect/
可执行包和tarball下载:
https://www.confluent.io/download/
用于S3的Kafka Sink Connector是使用官方的Apache Kafka Connect API编写的,因此它可以在标准的Connect Distributed工作容器中运行,并且可以从Kafka获得分区和并行消耗的任务或实例数量的水平扩展/缩小吞吐量。
答案 1 :(得分:0)
我同意kafka connect连接到S3。如果您想对表格进行一些操作,请查看K表格并在Kafka中执行此操作,那么您仍然可以使用kafk connect移至S3。如果将此操作作为ETL的一部分,您可能还需要重新考虑ETL工具,或将其添加到工具集中并使用DataBrick。