如何在使用gsub后对剩余值进行求和?

时间:2016-01-04 14:32:48

标签: r sum numeric gsub

我的大脑没有解决这个问题,所以我要求大家帮忙。

这是我数据的一部分:

rfam[1:20,]
     id              name
1  RF00001  LL_skoljka_r41782307_x1
2  RF00001   LL_skoljka_r9950955_x1
3  RF00001  LL_skoljka_r49323482_x1
4  RF00001  LL_skoljka_r14141437_x1
5  RF00001  LL_skoljka_r16457227_x3
6  RF00002  LL_skoljka_r40347558_x1
7  RF00002  LL_skoljka_r44415149_x1
8  RF00002  LL_skoljka_r13145032_x1
9  RF00002 LL_skoljka_r29248915_x42
10 RF00003  LL_skoljka_r15936986_x1
11 RF00003  LL_skoljka_r28953530_x1
12 RF00003  LL_skoljka_r32665758_x1
13 RF00003  LL_skoljka_r32835489_x1
14 RF00003  LL_skoljka_r32835498_x1
15 RF04051  LL_skoljka_r33254611_x1
16 RF04051 LL_skoljka_r29761867_x12
17 RF04051  LL_skoljka_r45123665_x2
18 RF04051 LL_skoljka_r34837827_x15
19 RF08595  LL_skoljka_r38900754_x1
20 RF08595  LL_skoljka_r22016530_x1

在第一步中,我想删除变量name中x之前的所有废话,所以我使用:

rfam$name<- as.data.frame(sapply(rfam$name, gsub, pattern='^.*?x', replacement=""))

结果:

rfam[1:20,]
     id       name
1  RF00001       1
2  RF00001       1
3  RF00001       1
4  RF00001       1
5  RF00001       3
6  RF00002       1
7  RF00002       1
8  RF00002       1
9  RF00002      42
10 RF00003       1
11 RF00003       1
12 RF00003       1
13 RF00003       1
14 RF00003       1
15 RF04051       1
16 RF04051      12
17 RF04051       2
18 RF04051      15
19 RF08595       1
20 RF08595       1

在第二步中,我想总结每个name的变量id中的值。

结果应如下所示:

view(rfam)
     id       name
1  RF00001       7
2  RF00002      45
3  RF00003       5
4  RF04051      30 
5  RF08595       2

如果我想总结值,变量应该是数字。我的两个变量都是因素。因此,我使用idrfam[,1]=as.character(rfam[,1])转换为字符,并尝试将name转换为数字rfam[,2]=as.numeric(levels(rfam[,2])[rfam[,2]])id的转化成功,而name则返回“NA”。

我也试过rfam[,2]=as.numeric(as.character(rfam[,2])),但结果是一样的。

我试图将数据导出到txt文件,然后在excel中进行剩下的分析,但是当我导出数据时,它看起来像这样:

      "id"     "name"
"1" "RF00001"   c(1, 1, 1, 1, 9, 1, 1, 1, 11, 1, 1, 1, 1, 1, 1, 3, 7, 5, 1, 1, 1, 9, 1, 14, 10, 7, 1, 5, 1, 1, 1, 1, 1, 7, 1, 2, 1, 1, 1, 9, 1, 7, 1, 1, 1, 1, 1, 1, 10, 7, 1, 10, 7, 1, 1, 1, 1, 1, 7, 1, 10, 1, 1, 1, 1, 1, 1, 1, 7, 1,...) 
"2" "RF00001"   c(1, 1, 1, 1, 9, 1, 1, 1, 11, 1, 1, 1, 1, 1, 1, 3, 7, 5, 1, 1, 1, 9, 1, 14, 10, 7, 1, 5, 1, 1, 1, 1, 1, 7, 1, 2, 1, 1, 1, 9, 1, 7, 1, 1, 1, 1, 1, 1, 10, 7, 1, 10, 7, 1, 1, 1, 1, 1, 7, 1, 10, 1, 1, 1, 1, 1, 1, 1, 7, 1,...)    
"3" "RF00001"   c(1, 1, 1, 1, 9, 1, 1, 1, 11, 1, 1, 1, 1, 1, 1, 3, 7, 5, 1, 1, 1, 9, 1, 14, 10, 7, 1, 5, 1, 1, 1, 1, 1, 7, 1, 2, 1, 1, 1, 9, 1, 7, 1, 1, 1, 1, 1, 1, 10, 7, 1, 10, 7, 1, 1, 1, 1, 1, 7, 1, 10, 1, 1, 1, 1, 1, 1, 1, 7, 1,...)

现在这是我的死胡同。我不明白发生了什么,如果你能帮助我,我将不胜感激。

1 个答案:

答案 0 :(得分:0)

<强>更新

意识到您的问题与分组部分无关,问题是您的sapply()函数正在rfam内创建data.frame而不是向量。

您可以使用以下data.table解决方案将rfam$name列正确转换为所需格式,以便进行分组。

setDT(rfam)[,name:= as.numeric(gsub('^.*?x', replacement="",name))]

现在我们可以使用dplyr来获得所需的输出:

library(dplyr)
as.data.frame(rfam) %>% group_by(id) %>% summarise(name=sum(name))