用rvest刮图像标题

时间:2015-02-05 17:57:18

标签: r css-selectors rvest

我试图使用R和SelectorGadget中的rvest包来从Glassdoor(API仅提供摘要评级)中提取个人评级来识别我的CSS选择器。

问题是Glassdoor使用图像来传达评级,但数字评级包含在图像标题中。使用SelectorGadget,我可以从下面的代码片段(使用“#EmployerReviews undecorated li”)中删除“Comp& Benefits”文本,但是我无法在span ... title = section中找到“2.0”,这就是我想要的。

<div id='EmployerReviews'> .... <ul class='undecorated'> <li> <div class='minor'>Comp & Benefits</div> <span class='notranslate notranslate_title gdBars gdRatings med ' title="2.0"> 

过去任何人都有成功的图像标题,或者知道获得这些个人评级的其他方法吗?

1 个答案:

答案 0 :(得分:4)

您需要选择范围,并使用html_attr()提取其属性值:

html <- html("...")
rating <- html %>% 
  html_nodes("#EmployerReviews .undecorated li span.gdRatings") %>%
  html_attr("title")

rating
# [1] "2.0"