我正在从网页上提取日期并且难以提取文本
date_ <- html_nodes(page_, xpath = '//*[@id="particular_con"]/div[2]/text()')
## prints ##
# {xml_nodeset (1)}
# [1] 2017-03-27
我尝试添加``[[(1L)
或date_[[1]]
但这打印
{xml_node}
<text>
我想只提取2017-03-27
答案 0 :(得分:3)
只需使用html_text
正如函数名称所示,html_nodes
返回指向节点的指针。要从中提取信息,请使用html_text
和html_attr
将第一行更改为:
date_ <- html_nodes(page_, xpath = '//*[@id="particular_con"]/div[2]/text()') %>% html_text()