如何在因子变量中使用过多水平进行回归?

时间:2018-08-06 20:23:42

标签: linear-regression

我的数据集由对多种食物的搜索次数组成。每条记录包含特定的食物,1-52的星期,2004-2016的年份以及该时间段的总搜索次数。有200种食物,每种食物都有相同数量的记录。

我的目标是进行回归分析,以查看食物类型,星期或年份对食物搜索次数的影响最大。我尝试了以下方法:

search_reg = lm(searches ~ food + year + week)
summary(search_reg)

但是,结果显示了每种食物的效果。我想要一种方法来显示食物因子变量对搜索次数的整体影响,而不是显示200种食物中每种食物的影响。我该怎么办?

很多时候,人们希望折叠因子变量,例如下面的问题。但是,我不想破坏它们,因为它们都是同等重要的食物,每种食物都有相同数量的记录。

Categorical variable (factor) collapse levels

0 个答案:

没有答案