Question

我正在从网页上提取日期并且难以提取文本

date_ <- html_nodes(page_, xpath = '//*[@id="particular_con"]/div[2]/text()')
## prints ## 
# {xml_nodeset (1)}
# [1]  2017-03-27

我尝试添加``[[(1L)或date_[[1]] 但这打印

{xml_node}
<text>

我想只提取2017-03-27

Answer 1

只需使用html_text

即可

正如函数名称所示，html_nodes返回指向节点的指针。要从中提取信息，请使用html_text和html_attr

将第一行更改为：

date_ <- html_nodes(page_, xpath = '//*[@id="particular_con"]/div[2]/text()') %>% html_text()