我使用了一组数据来学习随机森林回归器,现在我有了另一个具有较少特征(前一组子集)的数据集。
是否有一个函数可以获取在随机森林回归模型训练期间使用的列名称列表? 如果不是,那么是否有一个函数为缺少的列分配空值?
答案 0 :(得分:0)
是否有一个函数可以获取列名列表 随机森林回归模型训练中使用了什么?
RF使用数据集中的所有功能。每棵树可能包含sqrt(num_of_features)或log2(num_of_features)或其他内容,但这些列是随机选择的。因此,通常RF会覆盖您数据集中的所有列。
当您在RF中使用少量估计器时,可能会出现边缘情况,并且可能不会考虑某些功能。我想,RandomForestRegressor.feature_importances_(这里的零或nan值可能是指标),或者深入研究RandomForestRegressor.estimators_的每一棵树。
如果没有,那么对于缺少的列有一个函数 分配空值?
RF不接受缺少的值。您需要选择将缺失值编码为单独的类(并用于学习),或者选择XGBoost(例如)。