我是R新手。这是我的第一个问题。我有一个数据集,其中包括1)所有美国邮政编码,2)销售交易的唯一计数,以及3)销售交易的总和。是否有办法获得每个邮政编码的决定系数(R ^ 2),使用销售额和销售额总和作为我的x和y变量?具体来说,我希望使用提到的两个变量为每个美国邮政编码创建一个包含R ^ 2的表。
答案 0 :(得分:2)
您可以使用purrr包执行此操作。
以下是mtcars的示例:
library(purrr)
mtcars %>%
split(.$cyl) %>%
map(~ lm(mpg ~ wt, data = .x)) %>%
map(summary) %>%
map_dbl("r.squared") %>%
data.frame(cyl = names(.), r2 = ., row.names = NULL)
r2 cyl
1 0.5086326 4
2 0.4645102 6
3 0.4229655 8
以下是您的问题的流程,“引号”中的所有内容都需要在变量或数据框中更改,“r.squared”除外。
df <- "your dataframe" %>%
split(.$"zipcode") %>%
map(~ lm("sum of sales" ~ "count of sales", data = .x)) %>%
map(summary) %>%
map_dbl("r.squared") %>%
data.frame(zipcode = names(.), r2 = ., row.names = NULL)