我正在研究一个案例,该案例包括为实时流处理问题提出技术架构。问题是运输公司想要近乎实时地跟踪其公共汽车的速度和乘客数量。
我提出的初始架构是这样的:
- 总线实时将数据发送到MQQT服务器
- Apache Kafka通过MQQT连接器从此服务器获取数据
- 计算"速度"和#34;乘客数量"使用Kafka Streams API或Spark流媒体
- "速度"的可视化和#34;乘客人数"。
醇>
我的问题如下
- 建筑师,这是对的吗?
- 这种情况下的流处理问题,是无状态的吗?
- 最后,我想知道在进行虚拟化之前是否必须将数据存储在像cassandra这样的中间数据库中?
- 如果没有,是否有可以直接与运动中的流交互的开源可视化工具?