这是目录:
df <- tibble(ToC=
c("3.1 texta.............. 22",
"3.2 textb 25",
"section 6 ................. 50",
"section 10.2 65"))
我想将内容及其各自的页码提取为两个变量。我尝试了以下操作,但无法正常工作。
library(tidyverse); library(stringr)
df_toc <- df %>%
mutate(page = as.numeric(str_extract(ToC, "[0-9]+")))
正确的页码应该是22、25、50和65。我应该如何解决?
答案 0 :(得分:1)
尝试一下(行尾的数字):
df %>%
mutate(page = as.numeric(str_extract(ToC, "\\d+$")))