我试图使用R和SelectorGadget中的rvest包来从Glassdoor(API仅提供摘要评级)中提取个人评级来识别我的CSS选择器。
问题是Glassdoor使用图像来传达评级,但数字评级包含在图像标题中。使用SelectorGadget,我可以从下面的代码片段(使用“#EmployerReviews undecorated li”)中删除“Comp& Benefits”文本,但是我无法在span ... title = section中找到“2.0”,这就是我想要的。
<div id='EmployerReviews'> .... <ul class='undecorated'> <li> <div class='minor'>Comp & Benefits</div> <span class='notranslate notranslate_title gdBars gdRatings med ' title="2.0">
过去任何人都有成功的图像标题,或者知道获得这些个人评级的其他方法吗?
答案 0 :(得分:4)
您需要选择范围,并使用html_attr()
提取其属性值:
html <- html("...")
rating <- html %>%
html_nodes("#EmployerReviews .undecorated li span.gdRatings") %>%
html_attr("title")
rating
# [1] "2.0"