Question

我导入了两个csv文件，这些文件在两个不同的时间包含相同的变量。然后，我设法用函数rbind（）生成了一个新的第三个csv文件。我尝试使用lm（）函数创建线性回归，而将时间用作虚拟变量。其他变量是数字，我将它们从分类更改为数字。输出显示一些变量为数字变量，而另一些变量已归类，这对我来说是可疑的。我想取这些变量的平均值，然后将它们与虚拟变量相对应，在该变量中我总是会得到一个错误，即变量长度不同。

我已经尝试过glm（）函数，并取了每个变量的平均值。我也将变量定义为数字。

gh_old_small_short <- read.csv(file.choose(), header=T, sep=";")
gh_new_small_short <- read.csv(file.choose(), header=T, sep=";")

ghold <- rbind(gh_old_small_short, gh_new_small_short,  fill=T)
names(gh_new_small_short) <- names(gh_old_small_short)

model1 <- lm(formula = dummy ~ GovernmentOfficials + OfficeOfPresidency + MembersOfParliament + Age +
            Police + TaxOfficials + JudgesAndMagistrates + FightingCorruption, data=ghold, na.rm=T)
summary(model1)

我希望有一个线性回归表，其中包含总计的每个变量，而不是每个答案选项，因为我将变量重构为数字。

如何使用lm（）中的虚拟变量作为因变量？

0 个答案: