我试图在facet中使用ggplot来绘制数据的分布/密度。这是我现在所拥有的,其中红线显示平均值,每个方面显示平均值。现在,平均值没有意义,我希望有类似的绘图,其中密度的峰值用xintercept和文本显示。
我用于手段的代码是:
data <- read.table("sample.csv", header=F, sep=',')
colnames(data) <- c("frame", "val")
attach(data)
library(ggplot2)
library(grid)
library(plyr)
xdat <- ddply(data,"frame", transform, val_mean = signif(mean(val),3), med.x = signif(mean(val),3), med.y=signif(mean(density(val)$y),3))
ppi <- 500
png("sample.png", width=4*ppi, height=4*ppi, res=ppi)
hp <-ggplot(data=data, aes(x=val))+
geom_density() +
geom_vline(aes(xintercept=val_mean),xdat, color="red",linetype="dashed",size=1) +
theme_bw()
hp<-hp + facet_wrap (~ frame, ncol=2, scales="free_y") +
geom_text(data = xdat, aes(x=med.x,y=med.y,label=val_mean))
print(hp)
dev.off()
用于绘制此图表的数据是:
data <- data.frame(
"frame"=c(rep("A",9), rep("B", 13), rep("C", 7)),
"val"=c(1, rep(2,4), 4, 5, 6, rep(1,6), 2, rep(3,7), 1, rep(4,6))
)
我知道有些帖子中R已用于查找值中的峰值。但我希望在密度上绘制峰值,我无法找到任何解决方案(或者我可能错过了它)。是否有可能在R中即时计算峰值并在不同方面进行绘图? 非常感谢您的时间和帮助!!
答案 0 :(得分:12)
我假设您想要识别每个方面中的单个最大峰值 - 这将是分布的模式。如果您的分配是多模式的,我的答案将只识别最大的峰值。 This answer to another question解释geom_density()
使用带有默认参数的density()
函数。
话虽如此,以下代码应该适合您:
library(ggplot2)
library(grid)
library(plyr)
data <- data.frame("frame"=c(rep("A",9), rep("B", 13), rep("C", 7)), "val"=c(1,rep(2,4),4,5,6,rep(1,6),2,rep(3,7),1,rep(4,6)))
attach(data)
densMode <- function(x){
td <- density(x)
maxDens <- which.max(td$y)
list(x=td$x[maxDens], y=td$y[maxDens])
}
xdat <- ddply(data,"frame", transform, val_mean = signif(densMode(val)$x,3), med.x = signif(densMode(val)$x,3), med.y=signif(densMode(val)$y,3))
hp <- ggplot(data=data, aes(x=val)) +
geom_density() +
geom_vline(aes(xintercept=val_mean),xdat, color="red",linetype="dashed",size=1) +
theme_bw()
hp<- hp +
facet_wrap (~ frame, ncol=2, scales="free_y") +
geom_text(data = xdat, aes(x=med.x,y=med.y,label=val_mean))
hp
我更改的唯一行是那些确定图表创建方式的行(我没有使用png()
),插入densMode()
函数,并使用densMode()
xdat
的定义。我还根据您的示例数据创建了一个data.frame(我已将其作为您问题的编辑提交,以方便其他可能想要回答的人)。
代码生成下图: