在一个数据集上使用两种不同的回归模型来预测单个标签

时间:2019-05-17 18:58:10

标签: python pandas machine-learning regression sklearn-pandas

我想对那些被文本挖掘的要素使用KNN,而对其余要素使用另一种回归。是否可以通过某种方式将两个回归模型结合起来以预测单个标签?我应该将数据集分成两个不同的数据集吗?

我目前正在使用熊猫和sklearn。

1 个答案:

答案 0 :(得分:0)

您绝对可以使用Ensemble模型来做到这一点。

集成模型结合了来自各种模型的决策,以提高整体性能。对于回归问题,我建议使用以下集成模型/技术:

平均

这是一种相当简单的集成技术,您需要获取所有模型的预测平均值,然后使用它来进行最终预测。

加权平均

这类似于简单平均,但是所有模型现在都具有不同的权重,从而定义了每个模型在最终预测中的重要性/贡献。

袋装元估算器

是一种可同时用于分类(BaggingClassifier)和回归(BaggingRegressor)的整合技术。套袋元估算器执行以下步骤以达到最终预测:

  1. 从原始数据集中随机创建子集
  2. 在步骤1中创建的每个子集上都拟合有一个基本估计量。
  3. 组合预测以获得最终的预测标签

下面是一个非常简单的示例,它利用了BaggingRegressor中的sklearn

from sklearn.ensemble import BaggingRegressor

ensemble_model = BaggingRegressor(tree.DecisionTreeRegressor(random_state=1))
ensemble_model.fit(X_train, Y_train)
ensemble_model.score(X_test,Y_test)