machine-learning - 机器学习问题中的特征选择

我正在尝试使用特征（X）来预测y，即0和1s（分类）的列。我正在使用XGBoost之类的ML模型。

实际上，我的功能之一是高度可预测的，我们称之为X1。 X1是-1/0/1的列。当X1 = 1时，时间y的80％=1。当X1 = -1时，时间y的80％=0。当X1 = 0时，它与y不相关。

因此，实际上，除了ML之外，任何理智的人都会在他们的模型中选择它，因为如果您看到X1 = 1或X1 = -1，则您有80％的机会预测y是0还是1。

但是，X1大约只有5％的时间是-1或1，而有95％的时间是0。当我通过诸如顺序特征选择之类的特征选择技术来运行它时，它不会被选中！而且我能理解为什么ML不选择它，因为95％的时间它是0（因此与y不相关）。因此，对于我遇到的任何得分，使用X1的模型得分都不高。

所以我的问题更笼统地说，如何处理ML技术与现实逻辑之间的这一悖论？我可以在ML特征选择/建模中做些什么以利用嵌入在X1 -1和1中的信息（实际上我知道它们具有很高的预测性）？如果我们不了解X1的预测能力，那么哪种特征选择技术会发现它的预测能力呢？到目前为止，我所知道的所有方法都需要无条件的预测能力。取而代之的是，这里X1是高度预测性的有条件的，而不是0（只有5％的时间）。有什么方法可以捕捉到这一点？

非常感谢您的见解！

机器学习问题中的特征选择

1 个答案: