如何将特征的不确定性纳入机器学习算法?

时间:2017-08-01 17:17:05

标签: python python-3.x machine-learning regression decision-tree

我正在使用Scikit Learn的决策树对数据集进行回归。 我得到了非常好的结果,但是我担心的一个问题是,许多功能的相对不确定性非常高 我试图放弃具有高度不确定性的案例,但这会显着降低模型的性能。

这些特征本身是通过实验确定的,因此它们具有相关的实验不确定性。数据本身并不嘈杂。

所以我的问题,是否有一种很好的方法将与功能相关的不确定性纳入机器学习算法?

感谢您的帮助!

1 个答案:

答案 0 :(得分:2)

如果不确定的特征正在改进建议一起使用的算法,那么它们是有用的。但是,其中一些可能不是。我的建议是摆脱那些没有改进算法的功能。您可以使用贪婪的特征消除算法。

http://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.RFE.html

首先训练模型中所有特征的模型,然后摆脱被认为最不实用的特征。它再次训练模型,但少了一个功能。

希望有所帮助