所以有这个流数据和api来获取那些数据。我怎么能在这里使用kafka?我应该首先获取数据然后存储然后使用kafka吗?抱歉我对此很新
答案 0 :(得分:1)
Kafka Connect和Kafka Streams是基础Kafka包装的两个内置库
如果您想将数据放入Hadoop,Confluent会维护HDFS Connect plugin。如果你想从API"中获取数据,那有点模糊,但你可以自己编写Kafka Connect任务,这些是"源连接器" (there may even be one that exists用于你想要的东西),否则Apache NiFi或Streamsets等工具可以很好地与许多产品集成(除了它是一个持久的消息总线,你甚至可能不需要使用这两个产品的Kafka)
如果您确实想要更大规模地编程,可以查看Spark或Flink。