应用错误收集

这是因为您的数据通常由高斯分布描述，该分布由协方差矩阵参数化并且也意味着值（不要忘记均值！）。对于d维高斯，存在d个均值和d * d / 2 + d / 2个协方差值。因此可能需要学习很多参数。高斯分布是最简单的模型之一。 Trey是一个更复杂的模型，你会被参数蜂拥而至。

例如，您可以获得一组带有皮肤和背景对象的图像，并且您想知道如何使用简单的Gaussain分布模拟肤色与背景（可能您想要创建皮肤检测器）。嗯，它不是那么简单，因为颜色是3维的，所以你将有3个均值（r，g，b）和3x3对称协方差矩阵，有6个独立参数。因此，第一个违反直觉的结论是皮肤由抢夺色彩空间中的9个参数描述。我打赌大多数人会选择3（手段）。

事实上，如果计算协方差矩阵，您可以发现更多违反直觉的事实，例如皮肤红绿协方差特别低，皮肤的红蓝协方差与背景的红蓝协方差有很大不同。最后，很容易用矩阵和矩阵表示来计算协方差：cov = sum（v * v ^T）/ n，其中v = data-mean;

最后为了减少参数的数量，你可以考虑一些降维方法，如PCA，因子分析和K均值。

为什么专注于多维数据的方差/协方差结构是好的？

1 个答案: