我想在R中执行自举配对t检验。我已经尝试使用参数配对t检验返回p <.05的多个数据集但是当我运行bootstrap时,我得到了p值0.4和0.5。我错误地运行了吗?
{
"external_ref": 12345,
"sale_datetime": "2016-03-01 22:09:00",
"customer_name": "Foo Bar",
"shipping_address_1": "123 Test Street",
"shipping_address_2": "",
"shipping_address_3": "City",
"shipping_address_4": "County",
"shipping_postcode": "AB12 3AB",
"shipping_country": "England",
"shipping_country_code": "GB",
"shipping_method": "STANDARD",
"phone": "01234567890",
"items": [
{
"external_ref": 12345,
"style": "mens",
"size": "Medium",
"color": "White",
"print_location": "FRONT",
"print_x_offset": "0",
"print_y_offset": "0",
"quantity": 1,
"external_url": "url.png",
"external_thumbnail_url": "url.jpg"
}
]
}
谢谢!
答案 0 :(得分:1)
看起来你正在比较苹果和橘子。对于differences
的单个t检验,您获得了t统计量,如果大于临界值,则表明group1
和group2
之间的差异是否与零显着不同。您的引导代码执行相同的操作,但是对于differences
的10,000个自举样本,可以估计来自differences
种群的不同随机样本的t统计量的变化。如果你取这些自举t统计量(mean(tstat.values)
)的平均值,你会发现它与differences
的完整样本中的单个t统计量大致相同。
sum(tstat.values<=-1.96)/Repnumber
为您提供低于-1.96的自举t统计量的百分比。这是对来自人群的重复随机样本中t统计量小于-1.96的时间百分比的估计。我认为这实际上是对测试的功效的估计,以检测给定样本大小和显着性水平之间group1
和group2
之间给定大小的差异,尽管我不确定这样的权力分析是。
在正确引导t检验方面,我认为你实际需要做的是某种排列测试,检查你的实际数据是否是一个异常值,而不是反复改组数据上的标签并做一些t - 在每个混洗数据集上测试。您可能想在CrossValidated上提出问题,以获取有关如何正确执行此操作的建议。这些CrossValidated答案可能有所帮助:here,here和here。