基于第二个数据帧

时间:2016-07-25 15:57:25

标签: r

我有一个格式为“dfA”(65,000行)的格式:

Chr Pos     NCP     NCP_Ratio
1   72      1.06    0.599
1   371     4.26    1.331
1   633     2.10    2.442
1   859     1.62    1.276
1   1032    7.62    4.563
1   1199    6.12    4.896
1   1340    13.22   23.607

我希望在Chr的每一行中使用PosdfA的值来顺序地为表格的第二个data.frame dfB进行子集:

Chr Pos Watson  Crick
1   1   5       0
1   2   5       0
1   4   1       0
1   6   1       0
1   7   1       0
1   8   2       0
1   9   2       0
1   12  1       0
1   14  1       0
1   15  2       0
1   22  1       0

dfB有大约400万行。

每次我分组dfB时,我都想根据Pos中的范围检索感兴趣区域的值(即+ { - 1000 Pos的值在dfA)中,将它们添加到最初预先填充零的第三个数据框dfC

我通过遍历dfA的每一行来完成这项工作。但由于65,000行,需要数小时。所以我的问题是:

  1. 有更好/更有效的方法吗?

  2. 我的代码中哪一部分放慢了这么慢?“

  3. 我的代码:

    temp=NULL
    width=300 # Region upstream and downstream of centrepoint #
    padding=50 # Add some padding area to table #
    width1=width+padding
    dfC=data.frame(NULL)
    dfC[1:((width1*2)+1),"Pos"]=(1:((width1*2)+1)) # Create Pos column #
    
    # Prefill dfC table with zeros #
    dfC[1:((width1*2)+1),"Watson"]=0
    dfC[1:((width1*2)+1),"Crick"]=0
    
    for (chrom in 1:16) { # LOOP1. Specify which chromosomes to process #
    
      dfB.1=subset(dfB,Chr==chrom) # Make temp copy of the dataframes for each chromosome #
      dfA.1=subset(dfA, Chr==chrom)
    
    for (i in 1:nrow(dfA.1)) { # LOOP2: For each row in dfA:
    
      temp=subset(dfB.1, Pos>=(dfA.1[i,"Pos"]-width1) & Pos<=(dfA.1[i,"Pos"]+width1)) # Create temp matrix with hits in this region
      temp$Pos=temp$Pos-dfA.1[i,"Pos"]+width1+1
      dfC[temp$Pos,"Watson"]=dfC[temp$Pos,"Watson"]+temp[,"Watson"]
      dfC[temp$Pos,"Crick"]=dfC[temp$Pos,"Crick"]+temp[,"Crick"]
    
    } # End of LOOP2 #
    } # End of LOOP1 #
    

    示例输出采用以下形式 - 其中Pos包含1到2000的值(表示dfA中每个中心Pos位置侧翼的-1000到+1000的区域),Watson / Crick列包含命中的总和对于每个地点。

    Pos Watson  Crick
    1   15      34
    2   35      32
    3   11      26
    4   19      52
    5   10      23
    6   32      17
    7   21      6
    8   15      38
    9   17      68
    10  28      54
    11  27      35
    etc
    

1 个答案:

答案 0 :(得分:0)

我只清理了你的代码,所以不要指望有很大的改进,但我 认为这个版本可能会稍微快一点。

width <- 300
padding <- 50
width1 <- width + padding    
dfC <- data.frame(Pos=1:((width1*2)+1), Watson=0, Crick=0)
for (chrom in 1:16) {
    dfB1 <- subset(dfB, Chr == chrom)
    for (pos in dfA$Pos[dfA$Chr == chrom]) {
        dfB2 <- dfB1[(dfB1$Pos >= pos - width1) & (dfB1$Pos <= pos + width1), ]
        rows <- dfB2$Pos - pos + width1 + 1
        dfC$Watson[rows] <- dfC$Watson[rows] + dfB2$Watson
        dfC$Crick[rows] <- dfC$Crick[rows] + dfB2$Crick
    }
}