应用错误收集

时间：2018-03-11 16:00:10

标签： amazon-web-services apache-kafka aws-glue

我们在AWS上运行Kafka服务，并计划使用Athena / S3长期存储我们的分析数据。是否可以将Kafka与AWS Glue服务一起用于从Kafka阅读并在s3中存储？

答案 0 :(得分：3)

最好的办法是使用Confluent的开源Kafka Connector for S3，因为即使出现故障并重新启动服务，它也能保证一次写入S3。它也是一个实时的流式集成，所以数据立即写入S3而没有额外的延迟。

文档在这里：

源代码在github上：

这里的Docker镜像：

可执行包和tarball下载：

用于S3的Kafka Sink Connector是使用官方的Apache Kafka Connect API编写的，因此它可以在标准的Connect Distributed工作容器中运行，并且可以从Kafka获得分区和并行消耗的任务或实例数量的水平扩展/缩小吞吐量。

答案 1 :(得分：0)

我同意kafka connect连接到S3。如果您想对表格进行一些操作，请查看K表格并在Kafka中执行此操作，那么您仍然可以使用kafk connect移至S3。如果将此操作作为ETL的一部分，您可能还需要重新考虑ETL工具，或将其添加到工具集中并使用DataBrick。