应用错误收集

时间：2016-02-09 21:57:30

标签： machine-learning production-environment xgboost

我是一名数据科学家，我在工作场所看到所有主要的生产解决方案都涉及随机森林。

为什么像xgboost这样的机器学习算法不能在生产环境中使用？为什么需要重复性？

答案 0 :(得分：3)

我无法为所有人说话，但在大多数情况下，您希望有理由做出决定。您需要能够说服您的客户/您的老板这是正确的决定/预测。如果您使用神经网络或其他黑匣子模型，您只能获得预测结果，如果您还幸运，也可以进行置信估计。

＆＃34;白盒＆＃34;可以解释的模型或模型更好，因为您可以指向样本的特定功能，并说这些是产生预测的原因。决策树（但不是太深）或简单的阈值属于这一类。

如果我正确理解了xgboost的概念，那么你需要训练你的新树来纠正以前的错误。这意味着树木不是独立的，因此很难解释。

答案 1 :(得分：1)

我已经看到xgboost在生产中被多次使用，我自己使用它（在python和java工作者中），如果它比随机森林提供更好的结果（通常会发生），我会推荐它。