在实现机器学习算法时,标准化/规范化数据是必不可少的,如果不是至关重要的话。使用Spark结构化流媒体以实时方式这样做一直是我过去几周一直试图解决的问题。
在历史数据上使用StandardScaler
估算工具((value(i)-mean) /standard deviation)
证明是好的,在我的用例中,获得合理的聚类结果是最好的,但我不知道如何将StandardScaler
模型与实时数据相匹配。结构化流式传输不允许它。任何建议都将受到高度赞赏!
换句话说,如何在Spark结构化流媒体中拟合模型?
答案 0 :(得分:1)
我得到了答案。目前用Spark结构化流媒体进行实时机器学习是不可能的,包括规范化;但是,对于某些算法,如果建立/拟合离线模型,则可以进行实时预测。
检查:
JIRA - Add support for Structured Streaming to the ML Pipeline API