LDA向量系数解释

时间:2017-08-15 11:34:42

标签: vector lda

我试图解释/量化LDA之后获得的向量系数。

假设我获得了两类LDA的特征向量(单一)/分数,例如:

0.1348
0.2697
0.4045
0.5394
0.6742

最后一个维度是歧视能力中最重要的,对吧?但是,我可以将其量化为0.6742^2 /1=0.4545 %,这意味着这个维度有45%的歧视“权力”/能力吗?

0.6742/2.0226=0.3333对歧视“权力”/能力的33%做出贡献?

或者这些都不对,如果可能的话如何量化它。 我很抱歉,如果这是微不足道的,但我还没有在互联网上找到一个明确的答案。

谢谢,

图阿尔

1 个答案:

答案 0 :(得分:0)

让我们看一个使用虹膜数据的小例子:

import numpy as np
import matplotlib.pyplot as plt
from sklearn import datasets
from sklearn.decomposition import PCA
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

#load iris data
iris = datasets.load_iris()
X = iris.data
y = iris.target

#create and fit the model
lda = LinearDiscriminantAnalysis()
lda.fit(X,y)

#get the eigenvectors. The expected shape is [number of features, number of classes - 1]
lda.scalings_

<强>结果

array([[-0.81926852,  0.03285975],
       [-1.5478732 ,  2.15471106],
       [ 2.18494056, -0.93024679],
       [ 2.85385002,  2.8060046 ]])

正如预期的那样,我们有4行2列。现在,第一列是第一个线性判别式。您看到的值,例如-0.8192对应于相应特征对相应线性判别的影响(-0.8192对应于LD1)。

因此,绝对值越高,特征对LD的影响越大。

更深入 :在第一行中我们有:[ - 0.81926852,0.03285975]。这意味着第一个特征(在我们的例子中是萼片长度(cm))对第一个LD(LD1)的影响高于相同特征对第二个LD(LD2)的影响。

希望这有帮助。