从xml节点集中提取文本

时间:2017-04-04 12:36:47

标签: r xml web-scraping

我正在从网页上提取日期并且难以提取文本

date_ <- html_nodes(page_, xpath = '//*[@id="particular_con"]/div[2]/text()')
## prints ## 
# {xml_nodeset (1)}
# [1]  2017-03-27 

我尝试添加``[[(1L)date_[[1]] 但这打印

{xml_node}
<text>

我想只提取2017-03-27

1 个答案:

答案 0 :(得分:3)

只需使用html_text

即可

正如函数名称所示,html_nodes返回指向节点的指针。要从中提取信息,请使用html_texthtml_attr

将第一行更改为:

date_ <- html_nodes(page_, xpath = '//*[@id="particular_con"]/div[2]/text()') %>% html_text()