如何在R中执行自举配对t检验?

时间:2016-03-03 18:03:27

标签: r statistics bootstrapping significance statistical-test

我想在R中执行自举配对t检验。我已经尝试使用参数配对t检验返回p <.05的多个数据集但是当我运行bootstrap时,我得到了p值0.4和0.5。我错误地运行了吗?

{
  "external_ref": 12345,
  "sale_datetime": "2016-03-01 22:09:00",
  "customer_name": "Foo Bar",
  "shipping_address_1": "123 Test Street",
  "shipping_address_2": "",
  "shipping_address_3": "City",
  "shipping_address_4": "County",
  "shipping_postcode": "AB12 3AB",
  "shipping_country": "England",
  "shipping_country_code": "GB",
  "shipping_method": "STANDARD",
  "phone": "01234567890",
  "items": [
    {
      "external_ref": 12345,
      "style": "mens",
      "size": "Medium",
      "color": "White",
      "print_location": "FRONT",
      "print_x_offset": "0",
      "print_y_offset": "0",
      "quantity": 1,
      "external_url": "url.png",
      "external_thumbnail_url": "url.jpg"
    }
  ]
}

谢谢!

1 个答案:

答案 0 :(得分:1)

看起来你正在比较苹果和橘子。对于differences的单个t检验,您获得了t统计量,如果大于临界值,则表明group1group2之间的差异是否与零显着不同。您的引导代码执行相同的操作,但是对于differences的10,000个自举样本,可以估计来自differences种群的不同随机样本的t统计量的变化。如果你取这些自举t统计量(mean(tstat.values))的平均值,你会发现它与differences的完整样本中的单个t统计量大致相同。

sum(tstat.values<=-1.96)/Repnumber为您提供低于-1.96的自举t统计量的百分比。这是对来自人群的重复随机样本中t统计量小于-1.96的时间百分比的估计。我认为这实际上是对测试的功效的估计,以检测给定样本大小和显着性水平之间group1group2之间给定大小的差异,尽管我不确定这样的权力分析是。

在正确引导t检验方面,我认为你实际需要做的是某种排列测试,检查你的实际数据是否是一个异常值,而不是反复改组数据上的标签并做一些t - 在每个混洗数据集上测试。您可能想在CrossValidated上提出问题,以获取有关如何正确执行此操作的建议。这些CrossValidated答案可能有所帮助:hereherehere