我导入了两个csv文件,这些文件在两个不同的时间包含相同的变量。然后,我设法用函数rbind()生成了一个新的第三个csv文件。我尝试使用lm()函数创建线性回归,而将时间用作虚拟变量。其他变量是数字,我将它们从分类更改为数字。输出显示一些变量为数字变量,而另一些变量已归类,这对我来说是可疑的。我想取这些变量的平均值,然后将它们与虚拟变量相对应,在该变量中我总是会得到一个错误,即变量长度不同。
我已经尝试过glm()函数,并取了每个变量的平均值。我也将变量定义为数字。
gh_old_small_short <- read.csv(file.choose(), header=T, sep=";")
gh_new_small_short <- read.csv(file.choose(), header=T, sep=";")
ghold <- rbind(gh_old_small_short, gh_new_small_short, fill=T)
names(gh_new_small_short) <- names(gh_old_small_short)
model1 <- lm(formula = dummy ~ GovernmentOfficials + OfficeOfPresidency + MembersOfParliament + Age +
Police + TaxOfficials + JudgesAndMagistrates + FightingCorruption, data=ghold, na.rm=T)
summary(model1)
我希望有一个线性回归表,其中包含总计的每个变量,而不是每个答案选项,因为我将变量重构为数字。