以类似的格式抓取所有div标签ID(而不是其值)

时间:2019-06-05 09:20:27

标签: html r web-scraping rvest

我有一个内部公司html网页,其中带有div html标签,格式如下:

<div id="B4_6_2019">
<div id="B3_6_2019">

我想提取所有id名称,因此最终结果将是     B4_6_2019     B3_6_2019

我该怎么做? (ID名称均为日期)

2 个答案:

答案 0 :(得分:1)

还尝试使用attribute =值css选择器,并在运算符的末尾将子字符串与ID值字符串的末尾匹配

library(rvest)
page <- read_html("url")
id<- page %>% 
  html_nodes("[id$='_2019']") %>%
  html_attr(., "id")

答案 1 :(得分:0)

尝试做

library(dplyr)
library(rvest)

url %>%
  read_html() %>%
  html_nodes("div") %>%
  html_attr("id") %>%
  grep("^B\\d+_\\d+_\\d+", ., value = TRUE)