R 中整个数据集的回归线(每组两条回归线)

时间:2021-01-23 20:20:13

标签: r ggplot2 regression

我有一个包含三列的数据框,称之为 (X,Y,Z)。这样:

  • X 是数字变量
  • Y 是一个数字变量
  • Z 是一个因子变量

我想绘制(使用 ggplot2)Y 和 X 并根据因子变量 Z 制作颜色组。我已经做到了!

现在我需要绘制一些回归线,我知道如何为属于同一类别(即相同因子变量 Z)的每组点绘制回归线。然而,我需要的是为每个类别绘制 两条 回归线(可能看起来很奇怪,但在我处理的问题中,总是这样做的)。因此,对于每个类别 (Z),我应该有一条由前 n 个元素(属于该类别)计算的回归线和由给定类别中剩余点制成的第二条回归线,当然这两条线都应该具有与它们在给定类别(即相同颜色组)中插入点的颜色相同。

非常感谢任何帮助!提前致谢

1 个答案:

答案 0 :(得分:1)

如果您想要的 x 的两个范围是独立的,并且您想要生成 4 条单独的回归线(正如我对您的问题的理解),那么您可以指定要在 2 次调用中使用的数据 geom_smooth() . 此处,head()tail() 表示您想要回归的 x 值,假设点在 df 中排序。如果它们没有被排序,您需要先执行此操作(例如,通过 x 轴上的值调用 arrange())。

library(tidyverse)

# some test data with 3 variables: a random response (y), a sequence (x), and a factor (z).
df<-tibble(x = seq(0.5, 25, 0.5),
           y = rnorm(50),
           z = sample(x = c("A", "B"), replace = T, size = 50))

# a plot with each factor of z coloured and 2 regression lines for each factor
ggplot(df, aes(x, y, colour = z))+
  geom_point()+
  geom_smooth(data = ~head(df, 30), method = "lm", se = F)+
  geom_smooth(data = ~tail(df ,20), method = "lm", se = F)+
  theme_minimal()