如果我已经计算出相关系数,那么我已经有了协方差的概念。但是我已经看到许多数据科学家计算出协方差之后。如果我与我具有相关系数,那么我可以说数据与强度呈正相关或负相关,而协方差则使强度相同。如果我有相关系数,那么协方差的重要性是什么。
如果我的问题重要性不高,请提出歉意。
答案 0 :(得分:0)
相关性和协方差严格相关,实际上rho=cov(x,y)/(sigma_x*sigma_y)
但是,协方差的单位很难解释。例如,如果我们想知道支付给雇员的工资与公司雇员人数之间的协方差,则可以表明,通过将工资从美元转换为美分,我们会将协方差增加了100倍。考虑到如果我们谈论的是美元或美分,基本的关系不应不同,这是奇怪的。另一种表达方式是:
Cov(a*X,Y)=a*Cov(X,Y)
相关性始终在-1和1之间,并且更易于解释
答案 1 :(得分:0)
我倾向于将相关性与协方差视为快速的干燥数学关系概览和更原始关系分析之间的对立面。想象一下,您在一个几乎一无所知的领域加入一个项目:
当比较的样本以相似的比例/具有相似的性质生活时,很容易理解协方差,因为您将要考虑的值将不会尝试比较两个完全不同的事物,而在性质/比例上存在直观的荒谬折衷(请记住,要计算协方差,您需要使用两件事的乘积,它们与(x-mean(x))(y-mean(y))
可能会有很大差异。相关性被标准化,指标中根本没有与数据的不同尺度和性质相关的问题,从而带来了“更轻松的解释”的感觉。
因此,人们应该认识到,虽然关联可以使理解数学关系更容易,但是却混淆了正在处理的数据的实际性质。两者都不会伤害您感谢您对示例进行的操作,这可能就是您想要同时考虑两者的原因。如果您不确定,也可以阅读此related stats.stackexchange question。
如果您想知道为什么在试图突出显示样本之间的关系时为什么要保持数据的性质和规模,一个很好的例子是在AI中进行的努力,以在图像中提取有用的特征以供入模型:您想强调数据的区分性描述,而不用标准化过滤掉其他可能有趣的信息。例如,参见this paper,它使用协方差矩阵在图像上构建字典。