当一组是另一组的子集而样本大小不是时,如何比较两组的平均值

时间:2016-01-21 10:12:03

标签: statistics

我有两套包含一些出版物的引用计数。在这些集合中,一个是另一个集合的子集。也就是说,子集包含出现在另一组上的一些精确引用计数。 e.g。

Set1    Set2 (Subset)
50      50
24      24
12      -
5       5
4       4
43      43
2       -
2       -
1       -
1       -

所以我想确定子集中的数字是否足以代表set1?关于这件事:

  1. 我打算申请学生t检验,但我不知道如何 申请。原因是这些集合依赖于我所能 不适用不成对的t检验,要求两套必须来自 独立人口。另一方面,配对t检验也可以 看起来不合适,因为样本量必须相等。
  2. 如果有异常值,我应该将其删除吗?对我来说这不合逻辑 因为它通常不是异常值,但是出版物被引用了很多 很多,所以它属于同一个样本。如何处理此类案件? 如果我不删除它,会导致差异太大 影响统计测试...用它替换它是个好主意 因为引文分布通常倾向于中位而不是平均值 高度倾斜?
  3. 我该如何解决这个问题?

0 个答案:

没有答案