我有一个Spark ML管道模型,我想检查是否可以从Spark结构化的流应用程序中为该模型提供服务。
我如何模仿现实世界中每秒发送X条消息的场景,并查看应用程序是否承受压力。
我有一个要流式处理的csv示例。
我考虑过使用jmeter,但是火花流如何通过哪种接收器来获取消息?插座?定制一个?
我现在没有卡夫卡。
如果我使用常规的csv阅读器,那么它在多线程和并行性方面是否能很好地模仿现实世界,在服务REST api调用时是否可以期望相同的延迟?
有没有办法在Spark结构化流应用程序中提供REST api调用?
有人在服务于低延迟的Spark ML管道方面有经验吗?
我尝试了pmml和mleap,但它似乎不支持所有需要的转换等。