假设我们有来自学生班级的10-D数据。数据涉及名称,成绩,课程,否等参数。课堂上所有学生的讲座时间等。现在,我们想分析 No的影响。 成绩上的课时 如果我们密切关注我们的参数,学生的姓名与成绩无关,但学生“课程可能会对等级。
因此,可能存在彼此依赖的参数,而其他参数可以完全独立。我的问题是,我们如何确定哪个参数对我们的分类/回归问题有影响,哪些不对?
PS:我不是在寻找确切的解决方案。如果有人可以向我显示谷歌搜索的正确方向或关键字,那就足够了。 谢谢。
答案 0 :(得分:1)
您正在寻找的技术称为dimension reduction。斯坦福machine learning class超越了一种方法(principal component analysis)。
答案 1 :(得分:1)
这是independent component analysis的问题。 ICA是一系列用于查找统计独立的数据集组件的方法。这是一个难题,并且存在大量用于寻找良好解决方案的算法。一种流行的算法是FastICA。
还有whitening和decorrelation的相关概念。