Question

我正在尝试用R做一些非常简单的事情，但我不确定我做得好。我有一个包含三列V1，V4，V5的数据集，我想进行回归以得到以下多项式的两个变量的系数Ci，j：

sum[i=0->3] sum[j=0->i] Ci,j . (V4_k)^i . (V5_k)^(3-j)

所以我尝试使用函数polym：

lm(V1 ~ polym(V4, V5, degree=3, raw = TRUE), data)

给出了以下系数

[1]  1.048122e+04 -2.050453e+02  1.407736e+00 -3.309312e-03 -3.748650e+01  8.983050e-01 -4.308559e-03  1.834724e-01 -6.868446e-04  4.030224e-04

现在，如果我完全理解我们必须如何建立一个公式，我认为以下内容会相同：

lm(v1 ~ V4 + V5 + I(V4 * V5) + I(V4^2 * V5) + I(V4^3 * V5) + I(V4^2 * V5^2) + I(V4^2*V5^3) + I(V4^3 * V5^2) + I(V4^3 * V5^3), data)

但我得到不同的系数：

[1]  3.130403e+03 -1.652007e+01 -1.592879e+02  3.984177e+00 -2.419069e-02  3.919910e-05  1.008657e-04  4.271893e-07 -5.305623e-07 -2.289836e-09

你能告诉我我做错了什么，用R来实现这种回归的正确方法是什么？

Answer 1

使用样本数据

dd<-data.frame(x1=rnorm(50),
   x2=rnorm(50))
dd<-transform(dd, z = 2*x1-.5*x1*x2 + 3*x2^2+x1^2 + rnorm(50))

我们看到了

lm(z~polym(x1,x2,degree=3, raw=T), dd)
lm(z~x1+I(x1^2)+I(x1^3)+I(x2)+I(x1*x2) + 
   I(x1^2*x2)+I(x2^2) + I(x1*x2^2) + I(x2^3), dd)

是一样的。

请注意，在您的扩展中，您有

这样的术语

I(V4^3 * V5) + I(V4^2 * V5^2)

这两个都是4度项（指数之和为4）所以它们不应出现在三次多项式中。所以这取决于你想要什么。通常，对于三次多项式，你有

sum[i=0->3] sum[j=0->3-i] Ci,j . (V4_k)^i . (V5_k)^j

总是如此i+j<=3。我不清楚你究竟想要什么类型的回归。

Answer 2

聚合物（V4，V5）调用没有给出你的想法。（如果你在这个例子中使用poly或polym，那无关紧要）

让我们看一个例子：

v1 <- 1:10; v2 <- 1:10
poly(v1, v2, degree=3, raw=TRUE)
      1.0 2.0  3.0 0.1 1.1  2.1 0.2  1.2  0.3
 [1,]   1   1    1   1   1    1   1    1    1
 [2,]   2   4    8   2   4    8   4    8    8
 [3,]   3   9   27   3   9   27   9   27   27
 [4,]   4  16   64   4  16   64  16   64   64
 [5,]   5  25  125   5  25  125  25  125  125
 [6,]   6  36  216   6  36  216  36  216  216
 [7,]   7  49  343   7  49  343  49  343  343
 [8,]   8  64  512   8  64  512  64  512  512
 [9,]   9  81  729   9  81  729  81  729  729
[10,]  10 100 1000  10 100 1000 100 1000 1000

列标签告诉您作为参数提供的第一个和第二个向量的程度。前三个来自V2 ^ 0，秒三是V2中的线性，依此类推。

这是正确的，但你的第二个例子中有4个学位的术语。如果您实际上正在寻找第4学位术语，只需在方法调用中将度数更改为4。

如果您需要更多关于多项式回归的帮助，this article，对R-Bloggers应该会有所帮助。它显示了如何使用I()和poly创建模型，尽管我认为它们只是单变量。

带有R的两个变量的多项式回归

2 个答案: