为什么专注于多维数据的方差/协方差结构?
答案 0 :(得分:0)
这是因为您的数据通常由高斯分布描述,该分布由协方差矩阵参数化并且也意味着值(不要忘记均值!)。对于d维高斯,存在d个均值和d * d / 2 + d / 2个协方差值。因此可能需要学习很多参数。高斯分布是最简单的模型之一。 Trey是一个更复杂的模型,你会被参数蜂拥而至。
例如,您可以获得一组带有皮肤和背景对象的图像,并且您想知道如何使用简单的Gaussain分布模拟肤色与背景(可能您想要创建皮肤检测器)。嗯,它不是那么简单,因为颜色是3维的,所以你将有3个均值(r,g,b)和3x3对称协方差矩阵,有6个独立参数。因此,第一个违反直觉的结论是皮肤由抢夺色彩空间中的9个参数描述。我打赌大多数人会选择3(手段)。
事实上,如果计算协方差矩阵,您可以发现更多违反直觉的事实,例如皮肤红绿协方差特别低,皮肤的红蓝协方差与背景的红蓝协方差有很大不同。最后,很容易用矩阵和矩阵表示来计算协方差:cov = sum(v * v T )/ n,其中v = data-mean;
最后为了减少参数的数量,你可以考虑一些降维方法,如PCA,因子分析和K均值。