应用错误收集

时间：2016-09-13 18:17:22

标签： deployment machine-learning kernel

因此，在我花了几天时间清理数据，预先进行预处理以及尝试使用几种不同的模型（例如在R Studio中）之后，我如何实际部署解决方案。如果模型是一个简单的模型，例如决策树，逻辑回归，它很简单，因为模型很明显，R预测模型部署到具有http端点的商业R服务器等。

我的问题是，复杂的预处理（例如PCA转换，RBF内核或100棵树的随机森林）如同验证阶段一样，我认为我必须部署R脚本进行预处理，而PCA或者将RBF预处理脚本等应用于我的部署服务器？

这对于RBF是否意味着我必须在SVM预测器旁边托管所有原始训练数据集？ RBF变换是训练集或至少支持向量的函数。

对于Random Forest，我假设我必须上传所有500个左右的树，作为一个非常大的模型的一部分。

答案 0 :(得分：0)

首先，使用PMML data format和pmml包的组合或pmmlTransformations将您的R解决方案（数据预处理步骤和模型）导出到r2pmml包。其次，使用Openscoring REST Web服务JPMML-Spark或其他适合您部署需求的PMML集成来部署PMML解决方案。

PMML在使用RBF内核，树集合等代表PCA，SVM方面没有问题。

答案 1 :(得分：0)

针对此问题的纯R香草溶液。大多数集合方法提供了转储/保存学习模型的实用程序。学习是非常耗时和迭代的过程，应该做一次。发布学习保存/转储您的R对象。在部署中只有得分代码。评分代码将执行所有数据转换，然后进行评分。

对于正常的预处理，您可以重用训练中使用的R代码。对于像PCA这样的复杂处理，再次保存最终模型，只需在保存的PCA R对象上得分/运行数据。最后发布预处理分数/运行您在学习模型上的数据并获得最终结果。