我正在构建一个简单的Web服务,用户可以在UI中轻松构建Spark ML管道并保留它,以便用户可以检索已保存的管道并开始训练它。
这是一个想法:
在头脑风暴之后,我得到了以下实施理念:
JSON
格式导出用户定义的管道元数据并将其发送到Spark群集JSON
并在SparkContext
Spark ML Persistence
我现在面临的挑战是如何将管道元数据转换并导出到JSON
,从而如何从Spark中的JSON
解析和实例化管道(在步骤2和3中)
我相信我自己可以写一个简单的converter
和parser
,但我只是想知道是否有任何我可以用来启动我的库或框架。
更新
因为前端没有涉及代码,所以我不能使用Spark的ML持久性或MLeap。
答案 0 :(得分:0)
如果您使用spark ml的格式从Web服务器保存json,您只需加载它即可创建管道。查看序列化的json和生成它的代码,这样做似乎很简单。
答案 1 :(得分:0)
看看MLeap,它支持大多数Spark ML管道功能变换器和估算器。对于非常大的模型(即随机森林),您可以选择序列化为json或protobuf