至少在回归,分类和聚类ML实现期间,我们倾向于对数据集执行特征选择,而不论数据有多大或多小,这都是很普遍的,尽管数据中存在大量特征的情况。
通常,我们都知道我们可能使用了诸如RFE(递归特征消除),VIF(方差膨胀因子)方法,PCA(主成分分析),LDA(线性判别分析)之类的方法来在适用的情况下,针对我们的特定用例执行功能选择/消除(在许多情况下称为“消除”),然后进行模型构建和模型评估。很多时候,至少对于初学者来说,要理解并随后在适当的问题/设置中使用一种或多种这样的方法是很令人困惑的。
代替上面的内容,我想请专家们提出建议/评论,如果有任何通用的规则/准则可以使用,这可以帮助我们在过程中或过程中选择适当的特征选择方法类型我们的建模阶段在回答这个问题时,我们可以假设在进入特征选择/消除阶段之前,我们已经对数据集进行了探索性的数据分析,或者至少据我们所知。
任何对书籍,视频,讲习班或白皮书的引用也受到高度赞赏!!