我想比较在PCA和LDA之后的数据集上运行逻辑回归的准确性。我使用的数据集是威斯康星癌症数据集,其中包含两类:恶性或良性肿瘤和30个特征。我已经对这些数据进行过PCA,并且能够通过10个PCA获得良好的准确度分数。我知道LDA与PCA类似。我的理解是你计算每个类的每个特征的平均向量,计算散射矩阵,然后得到数据集的特征值。 LDA是否与PCA类似,我可以选择10个LDA特征值来更好地分离我的数据?我已经尝试了LDA与scikit学习,但它只给了我一个LDA回来。这是因为我只有2个班级,还是我需要做一个额外的步骤?我希望有10个LDA,以便与我的10个PCA进行比较。这甚至可能吗?
答案 0 :(得分:0)
实际上,LDA和PCA都是线性变换技术:LDA是受监督的,而PCA是无监督的(忽略类标签)。您可以将PCA描绘为找到最大方差方向的技术。而LDA作为一种技术也关注类可分性(请注意,这里,LD 2将是一个非常糟糕的线性判别式)。请记住LDA对正态分布做出假设类和等级协方差(至少是多类版本; Rao的通用版本)。