Rvest从html_node获取特定文本

时间:2019-05-29 21:30:28

标签: html r web-scraping rvest

我只想提取“ Beech Valley Solutions-”

我跑步时

html_nodes('li') %>% 
  html_nodes(".flexbox.empLoc") %>%  
  html_text() 

所有信息都出来了。 “山毛榉谷解决方案-今天佐治亚州亚特兰大,全天24小时”

1 个答案:

答案 0 :(得分:0)

还有另一种使用rvest进行抓取的方法。 您可以在html_nodes()中传递xpath,而不是在html_nodes()中传递css选择器项。下面是一个示例-

page %>% html_nodes(xpath = "//*[@id='series-matches']/div[20]/div[3]/div[1]/a[1]/span")

参考: https://blog.rstudio.com/2014/11/24/rvest-easy-web-scraping-with-r/

x路径更容易获取- 1.右键单击要获取xpath的部分。 2.从下拉列表中选择检查代码。 3. html页面将出现在右侧,从中单击鼠标右键,然后按“复制”选项。 4.出现下拉菜单,选择“复制xpath”。 5. Ctrl V(粘贴)html_nodes中的xpath(xpath =“此处的xpath”)。我希望这能帮到您。