如果为我提供了一个包含许多变量的大型数据集,是否可以确定它们中的任何两个是独立的还是依存的?假设除了统计研究之外,我对数据一无所知。
看看相关性/协方差就能确定这一点吗?
这样做的目的是确定哪些变量最适合在机器学习中用来预测特定结果。我有一些变量之间的相关性在0.40-0.50之间,但是我不确定是否相关性高==依赖性。
谢谢
答案 0 :(得分:0)
依赖性和相关性不同。如果2个变量是相关的,则它们是相关的。但是,如果它们是相关的,则不确定它们是否是依赖的,我们需要领域知识来考虑更多。要检查相关性,我们可以使用相关系数。对于依赖性测试,我们可以使用卡方检验。