我有一些非常大的文件,其中包含基因组位置(位置)和相应的群体遗传统计量(值)。我已成功绘制了这些值,并希望对前5%(蓝色)和1%(红色)值进行颜色编码。我想知道在R中是否有一种简单的方法可以做到这一点。
我已经探索过编写一个定义分位数的函数,但是,其中许多函数最终都不是唯一的,从而导致函数失败。我也研究过stat_quantile,但只是成功地使用它来绘制一条标记95%和99%的线条(有些线条是对我没有任何意义的对角线。)(对不起,我是新手R上。)
非常感谢任何帮助。
这是我的代码:(文件非常大)
########Combine data from multiple files
fst <- rbind(data.frame(key="a1-a3", position=a1.3$V2, value=a1.3$V3), data.frame(key="a1-a2", position=a1.2$V2, value=a1.2$V3), data.frame(key="a2-a3", position=a2.3$V2, value=a2.3$V3), data.frame(key="b1-b2", position=b1.2$V2, value=b1.2$V3), data.frame(key="c1-c2", position=c1.2$V2, value=c1.2$V3))
########the plot
theme_set(theme_bw(base_size = 16))
p1 <- ggplot(fst, aes(x=position, y=value)) +
geom_point() +
facet_wrap(~key) +
ylab("Fst") +
xlab("Genomic Position (Mb)") +
scale_x_continuous(breaks=c(1e+06, 2e+06, 3e+06, 4e+06), labels=c("1", "2", "3", "4")) +
scale_y_continuous(limits=c(0,1)) +
theme(plot.background = element_blank(),
panel.background = element_blank(),
panel.border = element_blank(),
legend.position="none",
legend.title = element_blank()
)
p1
答案 0 :(得分:3)
通过将quantile
和cut
合并到aes
颜色表达式中,您可以更优雅地实现这一目标。例如,此示例中为col=cut(d,quantile(d))
:
d = as.vector(round(abs(10 * sapply(1:4, function(n)rnorm(20, mean=n, sd=.6)))))
ggplot(data=NULL, aes(x=1:length(d), y=d, col=cut(d,quantile(d)))) +
geom_point(size=5) + scale_colour_manual(values=rainbow(5))
我还为pretty legend labels制作了一个有用的工作流程,有人可能会找到它。
答案 1 :(得分:2)
这就是我接近它的方法 - 基本上创建一个因子来定义每个观察所在的组,然后将colour
映射到该因子。
首先,一些数据可以使用!
dat <- data.frame(key = c("a1-a3", "a1-a2"), position = 1:100, value = rlnorm(200, 0, 1))
#Get quantiles
quants <- quantile(dat$value, c(0.95, 0.99))
有很多方法可以确定每个观察属于哪个组的因素,这里有一个:
dat$quant <- with(dat, factor(ifelse(value < quants[1], 0,
ifelse(value < quants[2], 1, 2))))
所以quant
现在表明观察是在95-99还是99+组。然后,可以轻松地将绘图中点的颜色映射到quant
。
ggplot(dat, aes(position, value)) + geom_point(aes(colour = quant)) + facet_wrap(~key) +
scale_colour_manual(values = c("black", "blue", "red"),
labels = c("0-95", "95-99", "99-100")) + theme_bw()
答案 2 :(得分:0)
我不确定这是否是您要搜索的内容,但也许有帮助:
# a little function which returns factors with three levels, normal, 95% and 99%
qfun <- function(x, qant_1=0.95, qant_2=0.99){
q <- sort(c(quantile(x, qant_1), quantile(x, qant_2)))
factor(cut(x, breaks = c(min(x), q[1], q[2], max(x))))
}
df <- data.frame(samp=rnorm(1000))
ggplot(df, aes(x=1:1000, y=df$samp)) + geom_point(colour=qfun(df$samp))+
xlab("")+ylab("")+
theme(plot.background = element_blank(),
panel.background = element_blank(),
panel.border = element_blank(),
legend.position="none",
legend.title = element_blank())
因此我获得了