应用错误收集

说实话，你这样做的方式不是它的意思。让我强调一些在进行此类分析时应始终牢记的要点：

1。）首先假设

我强烈建议避免对所有事情进行测试。这种探索性数据分析可能会产生一些重要结果，但也可能最终导致multiple comparisons problem。简单来说：你有这么多的测试，看到事实上不重要的事物的机会大大增加（参见Type I and Type II errors）。

2。）p值不是所有魔法

说您计算了所有列的p值并不能说明您使用的是哪个测试。 p值只是来自数学统计的“工具”，被许多测试（例如，相关性，t检验，ANOVA，回归等）使用。具有显着的p值表明您观察到的差异/关系在统计学上是相关的（即系统性而非随机性影响）。

3.）考虑样本和效果大小

根据您使用的测试，p值对您拥有的样本量敏感。样本量越大，发现显着效果的可能性越大。例如，如果比较两组，每组有100万个观测值，那么最小的差异（也可能是随机的伪像）可能很重要。因此，重要的是要看一下效果大小，它告诉你实际观察到的大小（例如 r 用于相关性，Cohen的 d 用于t检验，部分等式ANOVA等。）。

<强>概要

所以，如果你想在这里得到一些真正的帮助，我建议发布一些代码并更具体地说明你的研究问题是什么，（2）你使用了哪些测试，（3）你的代码和你的输出看起来像。

比较两个多列数据框的统计显着性

1 个答案: