我对这段代码的工作方式有疑问。它既是统计信息又是编码问题,所以请让我知道是否应该将其用于堆栈交换的统计信息部分。我知道该写什么代码来获得答案,但是返回的代码对我来说却没有意义。这是问题
问:假设您正在测试20种饮食对小鼠体重的有效性。对于20种饮食中的每一种,您都要对10只对照小鼠和10只经治疗的小鼠进行实验。假设零假设对所有20种饮食均无影响,并且小鼠的体重遵循正态分布,平均为30克,标准偏差为2克,请对其中一项研究进行Monte Carlo模拟:cases = rnorm(10,30,2)
controls = rnorm(10,30,2)
t.test(cases,controls)
现在运行Monte Carlo模拟,以模拟所有20种饮食的实验结果。如果将种子设置为100,请设置set.seed(100),并在调用中使用与上面相同的代码来复制有多少个p值(数字而不是比例)低于0.05?”
这是我写的代码
set.seed(100)
pvals <- replicate(20,{
cases = rnorm(10,30,2)
controls = rnorm(10,30,2)
t.test(cases,controls)$p.val
})
sum(pvals<.05)
首先,我的编码问题是为什么我需要set.seed(100)部分?难道不是在这里为我做一切吗?当我在注释掉set.seed部分的同时重新运行代码时,答案为1并没有改变,所以我对set.seed在这里的用途感到困惑。
第二,这个问题听起来与统计数据有关,但我认为它与代码有关。 sum(pvals<.o5)
部分返回的答案即使多次运行也始终为1,这令人困惑,因为我认为p值是随机的,并且在多次随机比较中p值会变化。为什么每次运行该模拟时,总是总是只有低于1.05的1 p值?