我通过线性回归y〜x获得概率,其中x是固定范围内的浮点值,例如在0到5之间,并且观察到的y均为0或1s。请注意,x可以重复,例如数据为(0.1,0),(0.1,1),(0.1,0),(0.12,1)等。
进行回归本身很好,我也可以绘制回归结果,例如通过ggplot2软件包
qplot(x,y,data=data,geom='smooth',method='lm')
由于实际数据的散点图会在y = 0和y = 1处添加很多点,因此我希望获得“分组平均值”,例如[0,0.2)中所有x的平均y值是一个点,[0.2,0.4)中另一个是y等。
理想情况下,该图还将显示与回归操作类似的样本量,例如如果一个分组的平均值比另一个分组的底层数据少,则将其显示在一个较小的圆圈内,例如气泡图。
答案 0 :(得分:1)
使用cut
将样本分成多个间隔。您可以使用data.table
进行一些快速汇总。然后,只需在您的绘图中添加一个尺寸分量即可:
x<-rnorm(100)
y<-5*x+6+rnorm(100,sd=0.2)
DT<-data.table(x,y)
DT[,bin:=cut(x,seq(-3,3,0.2),right = F)]
#Aggregate table
DT1<-DT[,.(mx=mean(x),my=mean(y),.N),by=bin]
qplot(x,y,data=DT,geom='smooth',method='lm')+
geom_point(data = DT1,aes(x= mx,y=my,size=N))