预测特征并使用预测的特征预测目标

时间:2020-05-18 12:24:22

标签: python machine-learning supervised-learning

我正在研究监督的ML分类用例,并且具有5个功能和一个目标变量。假设5个特征是A,B,C,D,E,F,目标变量是G。E特征不是原始特征,意味着它是从其他一些特征预测而来的。我尝试使用该功能进行模型构建,并且分类指标非常好。但是现在我的老板说我们不能使用功能E,因为它不能直接使用,我们需要先进行预测,然后再使用它来预测目标G。

以下是我尝试过的一些事情:

  1. 我尝试通过从特征列表中删除特征E来构建模型,而指标下降意味着特征E很重要。

  2. Boss说特征E是衍生或依赖于特征A,B,C,D和F,因此我们可以用它来预测特征E,然后再使用特征A,B,C,D,E, F预测G。

这是我的担忧:

  1. 如果功能E依赖于功能A,B,C,D和F,那么在构建模型时不使用功能E不会对我的指标产生太大影响。

  2. 如果我使用特征A,B,C,D和F预测特征E,并且确实使用特征A,B,C,D,E,F预测G,我将不会使用相关特征建立模型,因为E是使用A,B,C,D和F预测的。使用F不会在我的功能集中添加任何额外的信息。

我的理解是,如果通过从功能列表中删除功能E来构建模型,则会删除我的指标,那么这意味着功能E来自其他位置,即功能A,B,C,D,F除外。

我不是ML的经验丰富的人,这些是我对问题的看法。

请让我知道我的想法是否正确?

1 个答案:

答案 0 :(得分:1)

  1. 如果功能E依赖于功能A,B,C,D和F,则在构建模型时不使用功能E不会影响我的指标 很多。

这实际上取决于您使用的模型,但举一个简单的例子,假设您正在使用线性回归模型,而您要预测的值是y =x²

找不到具有简单线性回归器(A * x + B)的拟合模型。但是,您可以创建一个新特征x'=x²,现在可以拟合y A * x'+ b。因此,依赖于其他功能组合的功能有时可以为您的模型提供帮助。

  1. 如果我使用特征A,B,C,D和F预测特征E,并且确实使用特征A,B,C,D,E,F预测G,我将不会使用相关 用于模型构建的特征,因为E是使用A,B,C,D和 F。使用F不会在我的功能集中添加任何其他信息。

这个问题比较棘手,因为这实际上取决于您用来预测E的模型以及您用来预测y的模型。 如果您对两者都使用简单的线性回归器,则可以,E将是其他变量的线性组合,将无助于预测y。

但是您可以想象使用非线性模型(例如RandomForest)来预测E,这可以帮助您建立最终模型。

最重要的是:尝试的成本不高,只是要对两个模型使用相同的训练/测试来避免泄漏。