我有一个这种形式的数据框:
V1 V2 V3 V4 V5 V6 V7 V8
1 0610007C21Rik - chr5:31351012-31356737 1.33732e-05 0.752381 0.9965090 0.000000 1.777419e-05
2 0610007L01Rik - chr5:130695613-130717165 1.67168e+00 1.673120 0.0000000 3.453930 4.997847e-01
3 0610007P08Rik - chr13:63916627-64000808 7.06033e-01 0.000000 0.0815767 0.318051 1.000000e+00
4 0610007P14Rik - chr12:87157066-87165495 0.00000e+00 0.000000 0.0000000 5.494230 NaN
5 0610007P22Rik - chr17:25377114-25379603 4.99696e+00 0.908254 0.9076130 3.639250 8.461946e-01
6 0610009B22Rik - chr11:51499151-51502136 6.53363e-01 8.500980 13.5797000 0.000000 7.137192e-02
我正在使用此命令绘制log2(V4)与log2(V5):
plot(log2(df[,4]) ~ log2(df[,5]), xlim=c(0,10), ylim=c(0,10))
我想基于V1中的模式匹配来着色点。例如,如何为0610007C21Rik和0610007L01Rik绿色以及0610007P22Rik和0610007P14Rik红色着色? 我尝试使用指定的颜色向数据框添加另一列,但必须有一种更简单的方法。
答案 0 :(得分:1)
看看ggplot2包。
如果您输入数据框,它将使人们更容易提供代码帮助。
这是一个示例,其中包含看起来有点像你的数据,但是有更好的方法来记录转换。
df <- data.frame(sample(LETTERS[1:5],20, replace=TRUE), abs(rnorm(20)/100), abs(runif(20)*10))
colnames(df) <- c('V1','V4','V5')
library(ggplot2)
p <- ggplot(df, aes(log2(V4) , log2(V5)))
p + geom_point(aes(colour = V1))
答案 1 :(得分:1)
这是基础R解决方案:
将每个唯一值df$V1
的颜色列表定义为命名向量一次。请注意每个要着色的点名称周围的""
。
col.list <- c(
"0610007C21Rik"="green",
"0610007L01Rik"="green",
"0610007P22Rik"="red",
"0610007P14Rik"="red"
)
然后使用df$V1
进行绘图,以查找您刚刚定义的col.list
向量中的值。
plot(
log2(df[,4]) ~ log2(df[,5]),
xlim=c(0,10),
ylim=c(0,10),
col=col.list[paste(df$V1)]
)
要解决以下OP的评论,请在plot
电话中使用此<:p>
... col=ifelse(df$V1 %in% names(col.list),col.list[paste(df$V1)],"black")
这使得完整调用看起来像:
plot(
log2(df[,4]) ~ log2(df[,5]),
xlim=c(0,10),
ylim=c(0,10),
col=ifelse(df$V1 %in% names(col.list),col.list[paste(df$V1)],"black")
)