我得到了一个数据集D = {X,y},它有800个输入要素和单个连续输出。我正在寻找满足两个条件的任何特征提取方法
(1)可以下载Matlab代码
(2)。该方法应以某种方式将输入x映射到变换的输入z,其中z是d矢量,(d <800),使得z_i和y之间的互信息尽可能高。
我认为这些方法应该与CCA有关,但是当执行CCA(X,y)时,我将获得只有一个维度的向量z。我希望这些方法可以选择像PCA那样选择最好的功能。
谢谢,
答案 0 :(得分:0)
这是“信息讨论”问题的框架,在某些情况下可以在类似EM的迭代算法中解决,或者通过贪婪的凝聚聚类过程启发。
有用的参考资料:
确实它与CCA密切相关;在某些关于问题的假设(即高斯性)下,这种关系可以准确(见维基百科链接和this paper)。