我是一名数据科学家,我在工作场所看到所有主要的生产解决方案都涉及随机森林。
为什么像xgboost这样的机器学习算法不能在生产环境中使用?为什么需要重复性?
答案 0 :(得分:3)
我无法为所有人说话,但在大多数情况下,您希望有理由做出决定。您需要能够说服您的客户/您的老板这是正确的决定/预测。如果您使用神经网络或其他黑匣子模型,您只能获得预测结果,如果您还幸运,也可以进行置信估计。
"白盒"可以解释的模型或模型更好,因为您可以指向样本的特定功能,并说这些是产生预测的原因。决策树(但不是太深)或简单的阈值属于这一类。
如果我正确理解了xgboost的概念,那么你需要训练你的新树来纠正以前的错误。这意味着树木不是独立的,因此很难解释。
答案 1 :(得分:1)
我已经看到xgboost在生产中被多次使用,我自己使用它(在python和java工作者中),如果它比随机森林提供更好的结果(通常会发生),我会推荐它。