非线性回归线和ggplot2中的R²

时间:2014-11-06 10:22:18

标签: r ggplot2 regression nonlinear-functions

我有以下数据:

dput(dat)
structure(list(Band = c(1930, 1930, 1930, 1930, 1930, 1930, 1930, 
1930, 1930, 1930, 1930, 1930, 1930, 1930, 1930, 1930, 1930, 1930
), Reflectance = c(25.296494, 21.954657, 18.981184, 15.984661, 
14.381341, 12.485372, 10.592539, 8.51772, 7.601568, 7.075429, 
6.205453, 5.36646, 4.853167, 4.21576, 3.979639, 3.504217, 3.313851, 
2.288752), Number.of.Sprays = c(0, 1, 2, 3, 5, 6, 7, 9, 10, 11, 
14, 17, 19, 21, 27, 30, 36, 49), Legend = structure(c(4L, 1L, 
1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 1L, 2L, 2L, 2L, 3L, 3L, 3L, 5L
), .Label = c("1 x spray between each measurement", "2 x spray between each measurement", 
"3 x spray between each measurement", "Dry soil", "Wet soil"), class = "factor")), .Names =c("Band", 
"Reflectance", "Number.of.Sprays", "Legend"), row.names = c(NA, 
-18L), class = "data.frame")

导致以下情节

enter image description here

使用以下代码

g <- ggplot(dat, aes(Number.of.Sprays, Reflectance, colour = Legend)) +
    geom_point (size = 3) +
    geom_smooth (aes(group = 1, colour = "Trendline"), method = "loess", size = 1, linetype = "dashed", se = FALSE) +
    stat_smooth(method = "nls", formula = "y ~ a*x^b", start = list(a = 1, b = 1), se = FALSE)+
    theme_bw (base_family = "Times") +
    labs (title = "Regression between Number of Sprays and Reflectance in Band 1930") +
    xlab ("Number of Sprays") +
    guides (colour = guide_legend (override.aes = list(linetype = c(rep("blank", 4), "dashed", "blank"), shape = c(rep(16, 4), NA, 16)))) +
    scale_colour_manual (values = c("cyan", "green2", "blue", "brown",  "red", "purple")) +
    theme (legend.title = element_text (size = 15), legend.justification = c(1,1),legend.position = c(1,1), legend.background = element_rect (colour = "black", fill = "white"))

注意:我没有真正得到stat_smooth行和启动功能,只是从另一个线程调整它。

现在我的问题和目标:

  1. 是否有一个包/功能可以提供或多或少准确的估计哪些线功能最适合这些点?或者我是否必须尝试各种函数公式,看哪哪个最适合?基于method = "loess"的“趋势线”看起来相当不错,但我不知道它的计算依据是什么。

  2. 为什么通过stat_smooth()应用的线条取决于数据中的因子级别,而不仅仅依赖于所有点?

  3. 为什么“Trendline”的虚线图例图标看起来如此糟糕? (我怎么能改变这个?)

  4. 如果我在任何时候都有一个拟合的非线性回归线,我该如何计算它上面的R²? (我知道R²对于非线性关系不是那么“好”,但无论如何我都想这样做)。 summary(lm())仅用于线性关系。是否有可能根据非线性回归线的公式计算R²?

  5. 我知道很多问题,也许其中一些问题比R直接更具统计意义。在其他问题中找不到答案,所以只要编辑一下这个问题就不行了。

    感谢您的帮助, 帕特里克

1 个答案:

答案 0 :(得分:0)

1)也许我误解了问题,但我认为你所要求的是一种合理的,半自动的方式来估计NLS方法的最佳起点,而不是loess方法没有& #39; t为您提供可以在将来使用的模型表达式。

如果是这样的话,那就去吧。在等式中,当aReflectance应该知道Number of Sprays = 0的下降时,b需要相对接近Reflectance的预期值。 Number of Sprays使用高斯 - 牛顿算法可以很好地完成它的工作。 ab的值不需要过于夸张。您可以尝试以下方法:

fit = lm ( data = dat, Reflectance ~ Number.of.Sprays )

然后,在ggplot来电中,我会将您的geom_smooth声明替换为:

stat_smooth(method = "nls", formula = "y ~ a*x^b",  method.args = list(start=c(a=fit$coefficients[[1]], b=fit$coefficients[[2]])), se = FALSE)

关于NLS方法起始值的警告将消失,并且会收敛。

4)作为拟合的神度的度量,我建议你计算观察值与预测值之间的相关性。注意,当包括截距时,则R2仅是观察到的结果与观察到的预测值之间的样本相关系数的平方。所以这对你有用:

r2 =  cor (dat$Reflectance, predict(fit))^2
2,3)对于这些小问题,我不能提出一个直接的答案,或者我不太了解它们。当您将其用作美学时,图中的线条基于因子Legend的级别,而不是其他。