我有1000个休息网络服务。 需求 将数据提取到数据湖的标准方法? 完整加载和CDC以及流数据也。 要加载到kafka主题而没有重复的数据
答案 0 :(得分:0)
您的Web服务可以使用Kafka Producer API直接向Kafka发送数据,如果他们想要使用数据进行流处理,也可以使用Kafka Streams API。 Kafka Connect API是您将数据从其他来源(数据库等)流式传输到Kafka主题的方式。
从Kafka,您可以使用Kafka Connect的HDFS连接器将主题数据流式传输到HDFS / S3等。