python - 预测特征并使用预测的特征预测目标

我正在研究监督的ML分类用例，并且具有5个功能和一个目标变量。假设5个特征是A，B，C，D，E，F，目标变量是G。E特征不是原始特征，意味着它是从其他一些特征预测而来的。我尝试使用该功能进行模型构建，并且分类指标非常好。但是现在我的老板说我们不能使用功能E，因为它不能直接使用，我们需要先进行预测，然后再使用它来预测目标G。

以下是我尝试过的一些事情：

我尝试通过从特征列表中删除特征E来构建模型，而指标下降意味着特征E很重要。
Boss说特征E是衍生或依赖于特征A，B，C，D和F，因此我们可以用它来预测特征E，然后再使用特征A，B，C，D，E， F预测G。

这是我的担忧：

如果功能E依赖于功能A，B，C，D和F，那么在构建模型时不使用功能E不会对我的指标产生太大影响。
如果我使用特征A，B，C，D和F预测特征E，并且确实使用特征A，B，C，D，E，F预测G，我将不会使用相关特征建立模型，因为E是使用A，B，C，D和F预测的。使用F不会在我的功能集中添加任何额外的信息。

我的理解是，如果通过从功能列表中删除功能E来构建模型，则会删除我的指标，那么这意味着功能E来自其他位置，即功能A，B，C，D，F除外。

我不是ML的经验丰富的人，这些是我对问题的看法。

请让我知道我的想法是否正确？

如果功能E依赖于功能A，B，C，D和F，则在构建模型时不使用功能E不会影响我的指标很多。

这实际上取决于您使用的模型，但举一个简单的例子，假设您正在使用线性回归模型，而您要预测的值是y =x²

找不到具有简单线性回归器（A * x + B）的拟合模型。但是，您可以创建一个新特征x'=x²，现在可以拟合y A * x'+ b。因此，依赖于其他功能组合的功能有时可以为您的模型提供帮助。

如果我使用特征A，B，C，D和F预测特征E，并且确实使用特征A，B，C，D，E，F预测G，我将不会使用相关用于模型构建的特征，因为E是使用A，B，C，D和 F。使用F不会在我的功能集中添加任何其他信息。

这个问题比较棘手，因为这实际上取决于您用来预测E的模型以及您用来预测y的模型。如果您对两者都使用简单的线性回归器，则可以，E将是其他变量的线性组合，将无助于预测y。

但是您可以想象使用非线性模型（例如RandomForest）来预测E，这可以帮助您建立最终模型。

最重要的是：尝试的成本不高，只是要对两个模型使用相同的训练/测试来避免泄漏。

预测特征并使用预测的特征预测目标

1 个答案: