解析“目录”以获取正确的页码

时间:2018-08-21 01:10:48

标签: r tidyverse stringr stringi

这是目录:

df <- tibble(ToC=
             c("3.1 texta.............. 22",
             "3.2 textb     25",
             "section 6 ................. 50",
             "section 10.2       65"))

我想将内容及其各自的页码提取为两个变量。我尝试了以下操作,但无法正常工作。

library(tidyverse); library(stringr)
df_toc <- df %>%
  mutate(page = as.numeric(str_extract(ToC, "[0-9]+")))

正确的页码应该是22、25、50和65。我应该如何解决?

1 个答案:

答案 0 :(得分:1)

尝试一下(行尾的数字):

df %>% 
  mutate(page = as.numeric(str_extract(ToC, "\\d+$")))