假设我们在R中有此数据框:
start = data.frame(
Title = c("name_year0","name_year1","name_year2"),
value = c(4,5,6)
)
我想对其进行突变,以使Title
中的年份信息出现在年份列中:
Title value year
name 4 0
name 5 1
name 6 2
此代码几乎可以正常工作:
result1 = test %>%
mutate(year = str_match(Title, "year[0-9]+"))
但是结果是这样,它将字符串名称保留在year列中:
Title value year
name_year0 4 year0
name_year1 5 year1
name_year2 6 year2
似乎我应该能够使用正则表达式匹配中的组从year
中提取数字部分,就像这样:
result2 = test %>%
mutate(year = str_match(Title, "year([0-9]+)")[1,2])
但是由于某些原因,它似乎总是返回相同的年份值:
Title value year
name_year0 4 0
name_year1 5 0
name_year2 6 0
我缺少什么(可能很简单)?为什么str_match("name_year0","year([0-9]+)")[2]
适用于单个字符串,但是当我将其放入mutate
时却无效?
谢谢
答案 0 :(得分:0)
我想你有错字了。在str_match(Title, "year([0-9]+)")[1,2]
中,[1,2]
返回row = 1,column = 2的值。要获取第2列,请改用[ , 2]
,或仅使用[2]
来表示第2列,就像您在评论回复中提到的那样。
start = data.frame(
Title = c("name_year0","name_year1","name_year2"),
value = c(4,5,6)
)
start %>%
mutate(year = str_match(Title, "year([0-9]+)")[,2])
修改:
抱歉,我弄错了。 Str_match在此处返回一个矩阵。矩阵就像一个向量(列方式)。 [2]
是矩阵中的第二个值,[20]
是从左上角开始的第20个值,列的第一行,如本示例所示。
> a=matrix(1:100, ncol=10)
> a
[,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
[1,] 1 11 21 31 41 51 61 71 81 91
[2,] 2 12 22 32 42 52 62 72 82 92
[3,] 3 13 23 33 43 53 63 73 83 93
[4,] 4 14 24 34 44 54 64 74 84 94
[5,] 5 15 25 35 45 55 65 75 85 95
[6,] 6 16 26 36 46 56 66 76 86 96
[7,] 7 17 27 37 47 57 67 77 87 97
[8,] 8 18 28 38 48 58 68 78 88 98
[9,] 9 19 29 39 49 59 69 79 89 99
[10,] 10 20 30 40 50 60 70 80 90 100
> a[2]
[1] 2
> a[20]
[1] 20