我们是否应该在无状态流处理中将数据存储在中间数据库中?

时间:2017-12-07 13:13:21

标签: cassandra apache-kafka bigdata spark-streaming stream-processing

我正在研究一个案例,该案例包括为实时流处理问题提出技术架构。问题是运输公司想要近乎实时地跟踪其公共汽车的速度和乘客数量。 我提出的初始架构是这样的:

  1. 总线实时将数据发送到MQQT服务器
  2. Apache Kafka通过MQQT连接器从此服务器获取数据
  3. 计算"速度"和#34;乘客数量"使用Kafka Streams API或Spark流媒体
  4. "速度"的可视化和#34;乘客人数"。
  5. 我的问题如下

    • 建筑师,这是对的吗?
    • 这种情况下的流处理问题,是无状态的吗?
    • 最后,我想知道在进行虚拟化之前是否必须将数据存储在像cassandra这样的中间数据库中?
    • 如果没有,是否有可以直接与运动中的流交互的开源可视化工具?

0 个答案:

没有答案