使用rvest获取范围内容

时间:2017-08-28 10:07:06

标签: html r rvest

我试图用rvest包抓取一组网页。它在获取网页内容时起作用,但我无法在第一层获得创建时间,这个网页 2017-08-17 01:47

url <- read_html("http://tieba.baidu.com/p/5275787419", encoding = "UTF-8")
# This works
contents <- url %>% html_nodes(".d_post_content_firstfloor .clearfix") %>% html_text()
# This doesn't work
create_time <- url %>% html_nodes(".d_post_content_firstfloor li+ li span") %>% html_text()
create_time
character(0)

我想在网上获得一楼的时间,但我不知道如何访问它。

1 个答案:

答案 0 :(得分:0)

实现这一目标的一种方法可能是

create_time<- url %>% html_nodes(xpath= '//*[@id="j_p_postlist"]/div[1]') %>% xml_attr("data-field")
gsub(".*date\\\":\\\"(.*)\\\",\\\"vote_crypt.*","\\1",create_time)

输出是:

[1] "2017-08-17 01:47"


希望这有帮助!