将数据提取到Data Lake

时间:2018-01-30 07:53:00

标签: java rest apache-kafka

我有1000个休息网络服务。 需求 将数据提取到数据湖的标准方法? 完整加载和CDC以及流数据也。 要加载到kafka主题而没有重复的数据

1 个答案:

答案 0 :(得分:0)

您的Web服务可以使用Kafka Producer API直接向Kafka发送数据,如果他们想要使用数据进行流处理,也可以使用Kafka Streams API。 Kafka Connect API是您将数据从其他来源(数据库等)流式传输到Kafka主题的方式。

从Kafka,您可以使用Kafka Connect的HDFS连接器将主题数据流式传输到HDFS / S3等。