通过R中的Lowess预测(OR协调黄土和Lowess)

时间:2015-03-25 18:48:56

标签: r interpolation predict loess extrapolation

我正在尝试插入/本地推断一些工资数据以填写数据集。

这是数据集和可用数据的图表:

    experience   salary
 1:          1 21878.67
 2:          2 23401.33
 3:          3 23705.00
 4:          4 24260.00
 5:          5 25758.60
 6:          6 26763.40
 7:          7 27920.00
 8:          8 28600.00
 9:          9 28820.00
10:         10 32600.00
11:         12 30650.00
12:         14 32600.00
13:         15 32600.00
14:         16 37700.00
15:         17 33380.00
16:         20 36784.33
17:         23 35600.00
18:         25 33590.00
19:         30 32600.00
20:         31 33920.00
21:         35 32600.00

Raw Data

鉴于明确的非线性,我希望插值&通过局部线性估计器推断(我希望通过0到40年填写经验),所以我默认为lowess,这给出了:

Lowess

这在情节上很不错,但缺少原始数据--R的绘图设备为我们填补了空白。我无法为此功能找到predict方法,因为似乎R正在转向使用loess,我理解这是一种概括。

但是,当我使用loess(设置surface="direct"能够推断,如?loess中所述),其具有标准predict方法时,拟合是不太满意:

Loess

(有充分的理论上的理由说工资应该不减少 - 这里有一些噪音/可能的错误测量推动U形状)

我似乎无法摆弄任何参数来取回lowess给出的非递减拟合。

有关做什么的任何建议?

1 个答案:

答案 0 :(得分:3)

我不知道如何调和"这两个函数,但我使用了cobs包(COnstrained B-Splines非参数回归分位数),在类似任务中取得了一些成功。默认分位数是(本地)中值或0.5分位数。在此数据集中,span或内核宽度的默认选择似乎非常合适。

require(cobs)
Loading required package: cobs
Package cobs (1.3-0) attached.  To cite, see citation("cobs")

 Rbs <- cobs(x=dat$experience,y=dat$salary, constraint= "increase")
qbsks2():
# Performing general knot selection ...
#
# Deleting unnecessary knots ...
 Rbs
#COBS regression spline (degree = 2) from call:
#    cobs(x = dat$experience, y = dat$salary, constraint = "increase")
#{tau=0.5}-quantile;  dimensionality of fit: 5 from {5}
#x$knots[1:4]:  0.999966,  5.000000, 15.000000, 35.000034
plot(Rbs, lwd = 2.5)

enter image description here

它确实有一个预测方法,虽然你需要使用特殊的参数,因为它不支持通常的data=形式主义:

 help(predict.cobs)
 predict(Rbs, z=seq(0,40,by=5))
       z      fit
 [1,]  0 21519.83
 [2,]  5 25488.71
 [3,] 10 30653.44
 [4,] 15 32773.21
 [5,] 20 33295.84
 [6,] 25 33669.14
 [7,] 30 33893.12
 [8,] 35 33967.78
 [9,] 40 33893.12