我有2个数据帧。 每个数据帧包含64列,每列包含256个值。 我需要比较这两个数据帧的统计显着性。
我只了解统计数据的基础知识。 我所做的是计算每个数据帧的所有列的p值。 然后我将第1个数据帧的每列的p值与每列的p值与第2个数据帧进行比较。 EX:第1个数据帧的第1列的p值与第2个数据帧的第1列的p值。
然后我告诉两个数据帧中哪些列有显着差异。
有没有更好的方法来做到这一点。 我用python。
答案 0 :(得分:1)
说实话,你这样做的方式不是它的意思。让我强调一些在进行此类分析时应始终牢记的要点:
1。)首先假设
我强烈建议避免对所有事情进行测试。这种探索性数据分析可能会产生一些重要结果,但也可能最终导致multiple comparisons problem。 简单来说:你有这么多的测试,看到事实上不重要的事物的机会大大增加(参见Type I and Type II errors)。
2。)p值不是所有魔法
说您计算了所有列的p值并不能说明您使用的是哪个测试。 p值只是来自数学统计的“工具”,被许多测试(例如,相关性,t检验,ANOVA,回归等)使用。具有显着的p值表明您观察到的差异/关系在统计学上是相关的(即系统性而非随机性影响)。
3.)考虑样本和效果大小
根据您使用的测试,p值对您拥有的样本量敏感。样本量越大,发现显着效果的可能性越大。例如,如果比较两组,每组有100万个观测值,那么最小的差异(也可能是随机的伪像)可能很重要。因此,重要的是要看一下效果大小,它告诉你实际观察到的大小(例如 r 用于相关性,Cohen的 d 用于t检验,部分等式ANOVA等。)。
<强>概要强>
所以,如果你想在这里得到一些真正的帮助,我建议发布一些代码并更具体地说明你的研究问题是什么,(2)你使用了哪些测试,(3)你的代码和你的输出看起来像。