我想对我拥有的数据集运行模拟功效分析。让我们假设数据集有四个变量(数据集的列名):
Y--它是因变量,是连续且正态分布的。
X1 - 一个自变量,是连续的,具有正态分布。
X2 - 一个自变量,是连续的,并且不是正态分布的。
X3 - 一个自变量,是连续的,不是正态分布的。
现在,这个数据包含5000行,因此有5000个条目。
我使用以下公式进行线性回归:
summary(lm( Y ~ X1 + X2 + X3))
,并确定X1,X2和X3的回归系数分别为B1,B2和B3。
我现在有第五个变量(x4)我无法访问但我相信它是正常分布的。现在,可以使用以下公式更新线性模型:
lm(Y ~ X1 + X2 + X3 + X4)
,回归系数为B4。
我不知道B4是什么,但我有各种各样的情况,其中B4在0.2 - 0.5之间。
我想运行蒙特卡罗模拟来检查在各种B4下达到80%功率所需的样本量。为此,我需要生成一个可以模拟x4的正态分布变量,并且回归系数为B4。有没有办法在R中生成这个?