从不同的网站阅读材料,关于协方差以及实现LDA的汇总协方差矩阵计算已经出现了一些问题:
解释
Ci的协方差矩阵(C1和C2)
C - 汇总协方差矩阵
u - 全球平均值(数据集)
ui - 意思是组i(u1和u2)
N - 样本数量
Ni - 组i的样本数(N1和N2)
Xi - 特征i(X1和X2)
1 - 某些网站使用此公式
C1 = ((x1 – u)T(x1 – u) ) / N1
C2 = ((x2 – u)T(x2 – u) ) / N2
C = (N1/N)C1 + (N2/N)C2
2 - 其他人使用此公式
C1 = ((x1 – u1)T(x1 – u1) ) / N (can be N or N – K, where K is the number of groups)
C2 = ((x2 – u2)T(x2 – u2) ) / N (can be N or N – K)
C = (1/N)(C1 + C2 ) (N or N – K)
为何与众不同
在Ci演算中,使用全局均值或组均值?
在C演算中,使用(1 / N)还是(Ni / N)?
观察:
在我的4个数据集中,
具有二次核的LDA和LDA
如果我使用((xi – ui)T(xi – ui) ) / N or ((xi – u)T(xi – u) ) / Ni
,结果是相同的
但在QDA中
如果我使用((xi – u)T(xi – u) ) / Ni
,结果(分类)会更差
比((xi – ui)T(xi – ui) ) / N