创建我们需要知道的Spark ML对象:
我只是集思广益,使用json
传递此信息并从中实例化Spark ML对象。
例如,用这个json
{
"model": RandomForestClassifier,
"numTrees": 10,
"featuresCol": "binaryFeatures"
}
它将实例化随机森林模型。
val rf = new RandomForestClassifier().setNumTrees(10).setFeaturesCol("binaryFeatures")
自己编写自定义json
序列化程序/反序列化程序非常简单。 Scala的pattern match
似乎是一个很好的用例,可以从字符串中的名称动态实例化一个对象。但是,当对象变得更复杂(即支持管道)时,很难维护自定义序列化程序。
这是否有任何现有的实施?如果不是,json
结构应该是什么样的?