如何消除用于特征选择的“几乎线性相关”变量?

时间:2019-11-29 01:15:34

标签: pca feature-selection

我有一个来自产品几何测量的6000个样本和118个特征的数据集,它们偏离了“完美形状”。原则上,弹性体具有无限的自由度(可能的特征)。但是,由于身体的某些部分非常僵硬,因此许多功能预计会非常接近彼此线性相关。

目标是减少将来生产的测量工作,同时又不丢失太多有关质量的信息(接近“完美形状”)

问题是:除了通过低方差和相关过滤器之外,如何选择要删除(停止测量)的特征?

到目前为止,我的想法是为了找出线性组合:

  • PCA / ICA将把我带到可以消除一些PC的替代空间。 回到原始空间,这是否意味着我的某些原始变量相关? 我想到的是一个在空间中近似倾斜的平面的示例(3个特征x,y,z具有2台重量较大的PC)。难道不意味着可以高精度描述z = w1x + w2y吗?如果可行,那么递归选择要减少的变量的正确策略是什么?

  • 每次对一个变量进行线性回归,遍历所有118个特征,比较准确性。但是,如果我消除了最高精度的那一步,该如何进行呢?剩下的要循环吗?

我的线性代数感觉是,有一种更优雅的解决方法:)

0 个答案:

没有答案