我有54分。它们代表产品的供应和需求。我想表明这个提议有一个突破点。
首先,我对x轴(商品)进行排序并删除出现两次的值。我有47个值,但我删除了第一个和最后一个(将它们视为断点没有意义)。休息时间长度为45:
Break<-(sort(unique(offer))[2:46])
然后,对于这些潜在断点中的每一个,我估计一个模型并且我在“d”中保留残差标准误差(模型汇总对象中的第六个元素)。
d<-numeric(45)
for (i in 1:45) {
model<-lm(demand~(offer<Break[i])*offer + (offer>=Break[i])*offer)
d[i]<-summary(model)[[6]] }
绘制d,我注意到我的较小残差标准误差为34,对应于“Break [34]”:22.4。所以我用最后的断点来写我的模型:
model<-lm(demand~(offer<22.4)*offer + (offer>=22.4)*offer)
最后,我对我的新模特感到满意。它比简单的线性好得多。我想画它:
plot(demand~offer)
i <- order(offer)
lines(offer[i], predict(model,list(offer))[i])
但我有一条警告信息:
Warning message:
In predict.lm(model, list(offer)) :
prediction from a rank-deficient fit may be misleading
更重要的是,这些线条在我的情节中非常奇怪。
以下是我的数据:
demand <- c(1155, 362, 357, 111, 703, 494, 410, 63, 616, 468, 973, 235,
180, 69, 305, 106, 155, 422, 44, 1008, 225, 321, 1001, 531, 143,
251, 216, 57, 146, 226, 169, 32, 75, 102, 4, 68, 102, 462, 295,
196, 50, 739, 287, 226, 706, 127, 85, 234, 153, 4, 373, 54, 81,
18)
offer <- c(39.3, 23.5, 22.4, 6.1, 35.9, 35.5, 23.2, 9.1, 27.5, 28.6, 41.3,
16.9, 18.2, 9, 28.6, 12.7, 11.8, 27.9, 21.6, 45.9, 11.4, 16.6,
40.7, 22.4, 17.4, 14.3, 14.6, 6.6, 10.6, 14.3, 3.4, 5.1, 4.1,
4.1, 1.7, 7.5, 7.8, 22.6, 8.6, 7.7, 7.8, 34.7, 15.6, 18.5, 35,
16.5, 11.3, 7.7, 14.8, 2, 12.4, 9.2, 11.8, 3.9)
答案 0 :(得分:24)
使用ggplot2
这是一种更简单的方法。
require(ggplot2)
qplot(offer, demand, group = offer > 22.4, geom = c('point', 'smooth'),
method = 'lm', se = F, data = dat)
EDIT。我还建议您查看此程序包segmented
,它支持自动检测和估计分段回归模型。
更新:
以下示例使用R包segmented自动检测中断
library(segmented)
set.seed(12)
xx <- 1:100
zz <- runif(100)
yy <- 2 + 1.5*pmax(xx - 35, 0) - 1.5*pmax(xx - 70, 0) + 15*pmax(zz - .5, 0) +
rnorm(100,0,2)
dati <- data.frame(x = xx, y = yy, z = zz)
out.lm <- lm(y ~ x, data = dati)
o <- segmented(out.lm, seg.Z = ~x, psi = list(x = c(30,60)),
control = seg.control(display = FALSE)
)
dat2 = data.frame(x = xx, y = broken.line(o)$fit)
library(ggplot2)
ggplot(dati, aes(x = x, y = y)) +
geom_point() +
geom_line(data = dat2, color = 'blue')
答案 1 :(得分:7)
文森特让你走在正确的轨道上。关于结果图中线条的唯一“怪异”是lines
在每个连续点之间画一条线,这意味着如果只是连接两端,你会看到“跳跃”每一行。
如果您不想要该连接器,则必须将lines
电话分成两个单独的部分。
另外,我觉得你可以稍微简化你的回归。这是我做的:
#After reading your data into dat
Break <- 22.4
dat$grp <- dat$offer < Break
#Note the addition of the grp variable makes this a bit easier to read
m <- lm(demand~offer*grp,data = dat)
dat$pred <- predict(m)
plot(dat$offer,dat$demand)
dat <- dat[order(dat$offer),]
with(subset(dat,offer < Break),lines(offer,pred))
with(subset(dat,offer >= Break),lines(offer,pred))
产生这个情节:
答案 2 :(得分:4)
奇怪的线条仅仅是由于绘制点的顺序。 以下应该看起来更好:
i <- order(offer)
lines(offer[i], predict(model,list(offer))[i])
警告来自*
字符由lm
解释的事实。
> lm(demand~(offer<22.4)*offer + (offer>=22.4)*offer)
Call:
lm(formula = demand ~ (offer < 22.4) * offer + (offer >= 22.4) * offer)
Coefficients:
(Intercept) offer < 22.4TRUE offer
-309.46 356.08 29.86
offer >= 22.4TRUE offer < 22.4TRUE:offer offer:offer >= 22.4TRUE
NA -20.79 NA
此外,(offer<22.4)*offer
是一个不连续的函数:这是不连续性的来源。
以下内容应该更接近您想要的内容。
model <- lm(
demand ~ ifelse(offer<22.4,offer-22.4,0)
+ ifelse(offer>=22.4,offer-22.4,0) )