如何根据模式匹配为R中的数据点着色?

时间:2012-06-23 18:09:59

标签: r bioinformatics

我有一个这种形式的数据框:

             V1 V2                       V3          V4       V5         V6       V7           V8
1 0610007C21Rik  -   chr5:31351012-31356737 1.33732e-05 0.752381  0.9965090 0.000000 1.777419e-05
2 0610007L01Rik  - chr5:130695613-130717165 1.67168e+00 1.673120  0.0000000 3.453930 4.997847e-01
3 0610007P08Rik  -  chr13:63916627-64000808 7.06033e-01 0.000000  0.0815767 0.318051 1.000000e+00
4 0610007P14Rik  -  chr12:87157066-87165495 0.00000e+00 0.000000  0.0000000 5.494230          NaN
5 0610007P22Rik  -  chr17:25377114-25379603 4.99696e+00 0.908254  0.9076130 3.639250 8.461946e-01
6 0610009B22Rik  -  chr11:51499151-51502136 6.53363e-01 8.500980 13.5797000 0.000000 7.137192e-02

我正在使用此命令绘制log2(V4)与log2(V5):

plot(log2(df[,4]) ~ log2(df[,5]), xlim=c(0,10), ylim=c(0,10))

我想基于V1中的模式匹配来着色点。例如,如何为0610007C21Rik和0610007L01Rik绿色以及0610007P22Rik和0610007P14Rik红色着色? 我尝试使用指定的颜色向数据框添加另一列,但必须有一种更简单的方法。

2 个答案:

答案 0 :(得分:1)

看看ggplot2包。

如果您输入数据框,它将使人们更容易提供代码帮助。

这是一个示例,其中包含看起来有点像你的数据,但是有更好的方法来记录转换。

df <- data.frame(sample(LETTERS[1:5],20, replace=TRUE), abs(rnorm(20)/100), abs(runif(20)*10))
colnames(df) <- c('V1','V4','V5')


library(ggplot2)

p <- ggplot(df, aes(log2(V4) , log2(V5)))
p + geom_point(aes(colour = V1))

答案 1 :(得分:1)

这是基础R解决方案:

将每个唯一值df$V1的颜色列表定义为命名向量一次。请注意每个要着色的点名称周围的""

col.list <- c(
              "0610007C21Rik"="green",
              "0610007L01Rik"="green",
              "0610007P22Rik"="red",
              "0610007P14Rik"="red"
             )

然后使用df$V1进行绘图,以查找您刚刚定义的col.list向量中的值。

plot(
     log2(df[,4]) ~ log2(df[,5]), 
     xlim=c(0,10),
     ylim=c(0,10),
     col=col.list[paste(df$V1)]
    )

要解决以下OP的评论,请在plot电话中使用此<:p>

... col=ifelse(df$V1 %in% names(col.list),col.list[paste(df$V1)],"black")

这使得完整调用看起来像:

plot( 
      log2(df[,4]) ~ log2(df[,5]),
      xlim=c(0,10),
      ylim=c(0,10),
      col=ifelse(df$V1 %in% names(col.list),col.list[paste(df$V1)],"black")
    )