比较两个多列数据框的统计显着性

时间:2017-07-18 15:01:58

标签: python statistics analytics p-value significance

我有2个数据帧。 每个数据帧包含64列,每列包含256个值。 我需要比较这两个数据帧的统计显着性。

我只了解统计数据的基础知识。 我所做的是计算每个数据帧的所有列的p值。 然后我将第1个数据帧的每列的p值与每列的p值与第2个数据帧进行比较。 EX:第1个数据帧的第1列的p值与第2个数据帧的第1列的p值。

然后我告诉两个数据帧中哪些列有显着差异。

有没有更好的方法来做到这一点。 我用python。

1 个答案:

答案 0 :(得分:1)

说实话,你这样做的方式不是它的意思。让我强调一些在进行此类分析时应始终牢记的要点:

1。)首先假设

我强烈建议避免对所有事情进行测试。这种探索性数据分析可能会产生一些重要结果,但也可能最终导致multiple comparisons problem。 简单来说:你有这么多的测试,看到事实上不重要的事物的机会大大增加(参见Type I and Type II errors)。

2。)p值不是所有魔法

说您计算了所有列的p值并不能说明您使用的是哪个测试。 p值只是来自数学统计的“工具”,被许多测试(例如,相关性,t检验,ANOVA,回归等)使用。具有显着的p值表明您观察到的差异/关系在统计学上是相关的(即系统性而非随机性影响)。

3.)考虑样本和效果大小

根据您使用的测试,p值对您拥有的样本量敏感。样本量越大,发现显着效果的可能性越大。例如,如果比较两组,每组有100万个观测值,那么最小的差异(也可能是随机的伪像)可能很重要。因此,重要的是要看一下效果大小,它告诉你实际观察到的大小(例如 r 用于相关性,Cohen的 d 用于t检验,部分等式ANOVA等。)。

<强>概要

所以,如果你想在这里得到一些真正的帮助,我建议发布一些代码并更具体地说明你的研究问题是什么,(2)你使用了哪些测试,(3)你的代码和你的输出看起来像。