这实际上是一个统计问题,而不是编码问题:考虑在stats.stackexchange.com上发帖;你可能会得到更好的答案。
RSQ对非线性回归没有意义。这就是summary.nls(...)
没有提供它的原因。有关说明,请参阅this post。
有一种共同的,可理解的趋势,希望单个统计数据允许人们评估哪一组模型更适合数据集。不幸的是,它没有那种方式。以下是一些需要考虑的事项。
- 一般来说,最好的模型是具有机械基础的模型。你的模型是否反映了一些物理过程,或者你只是尝试了一堆数学方程并希望最好?前一种方法几乎总能带来更好的模型。
- 您应该考虑如何使用模型。您将进行插值(例如,估算数据集范围内的y | x),还是要进行外推(估计数据范围之外的y | x)?有些模型产生的拟合可以提供略微超出数据集范围的相对准确的估计,而其他模型则完全崩溃。
- 有时,您拥有的数据类型会建议适当的建模技术。例如,如果您有数据计算某些东西,那么y很可能是泊松分布的,并且指示了泊松族中的广义线性模型(glm)。如果您的数据是二进制的(例如,只有两个可能的结果,成功或失败),则表示二项式glm(所谓的逻辑回归)。
- 最小二乘法技术的关键基本假设是y中的误差通常以均值0和常数方差分布。我们可以在完成拟合之后通过查看标准化残差与y的关系图,并通过查看残差的正常Q-Q图来测试这一点。如果残差图显示散射增加或减少y,那么模型不是很好。如果正常Q-Q图不接近直线,则残差不是正态分布的,并且可能指示不同的模型。
- 有时,某些数据点对给定模型具有较高的杠杆作用,这意味着这些点会过度影响拟合。如果这是一个问题,您将在杠杆图中看到它。这表明模型很弱。
- 对于给定的模型,情况可能是并非所有参数都与0显着不同(例如,系数的p值> 0.05)。如果是这种情况,则需要在没有这些参数的情况下探索模型。使用nls,这通常意味着完全不同的模型。
- 假设您的模型通过了上述测试,那么查看拟合的F统计量是合理的。这基本上是针对回归(R)中的dof校正的SSR / SSE与残差(E)的比率。具有更多参数的模型通常具有更小的残余SS,但这不会使其成为更好的模型。 F统计量解释了这一点,因为具有更多参数的模型将具有更大的回归自由度和更小的残差自由度,使得F统计量更小。
- 最后,在考虑了上述项目后,您可以考虑剩余标准误差。通常,所有其他条件相同,较小的残差标准误差更好。麻烦的是,所有其他事情永远不会相等。这就是我建议最后查看RSE的原因。
醇>