我正在尝试对具有约25,000个观测值的数据集运行二进制分类随机森林,并且我拥有约300个特征。所有这些功能至少都会显示一次,但是相当多的功能总共发生的次数少于50次,有的少于10次。
我怀疑其中一些可能是一种完美的预测器,但如果它们如此罕见,它们有什么用呢?如果我可以在运行任何命令之前将其删除,则可以大大减少模型的训练时间。还是应该只对所有内容运行模型并删除最不重要的功能?
答案 0 :(得分:0)
运行一个包含所有内容的模型,另一个运行不具有这些功能的模型。
比较两个模型的误差度量,还检查功能重要性值以查看这些功能是否有用。
您还可以使用SelectKBest
中的sklearn
等功能选择技术
https://scikit-learn.org/stable/modules/classes.html#module-sklearn.feature_selection