所以我有一个77名癌症患者和12500多个属性的数据集。我已经应用了主成分分析,以便过滤属性,只保留解释最多的方差。
我的问题是,除了PCA之外,Matlab中是否有技术来识别具有最强预测能力的属性?
答案 0 :(得分:1)
有两种主要方法可以巧妙地“降低数据集的维度”。一个是特征转换(包括,例如,PCA),另一个是特征选择。
您似乎正在寻找一种功能选择算法,该算法将保留信息量最大的原始属性。相反,特征转换算法将生成 new 属性集!
至于您的确切问题,您可以做出多种选择。请记住,天真地,每个特征选择算法都必须根据这些特征能够“完好无损”地选择最佳特征。
对于MATLAB内置实现,如果安装了统计和机器学习工具箱,则可以使用“Sequential feature selection”函数sequentialfs
。