我是Kafka / AWS的新手。我要求将数据从多个来源加载到DW(Redshift)。
我的一个来源是PostgreSQL。我找到了good article使用Kafka将数据同步到Redshift。
本文更适合将PostgreSQL之间的数据同步到redshift。但我的要求是在加载到Redshift之前转换数据。
有人可以帮我解决如何在Kafka(PostgreSQL-> Redhsift)中转换数据的问题吗?
先谢谢你 杰
答案 0 :(得分:1)
以下是我刚刚发布的关于这种模式的文章,描述了如何使用Apache Kafka的Connect API和KSQL(基于Kafka的Streams API构建)来进行流式ETL:https://www.confluent.io/ksql-in-action-real-time-streaming-etl-from-oracle-transactional-data
你应该看看Debezium从Postgres到Kafka的流媒体事件。
答案 1 :(得分:0)
为此,您可以使用任何流媒体应用程序,如风暴/火花/卡夫卡流媒体。这些应用程序将使用来自差异源的数据,并且数据转换可以在运行中完成。这三者都有自己的优势和复杂性。