我需要点击一个链接,该链接实际上是html文件中的图像(左上角的UCR徽标),我该怎么做? 我有以下代码:
url <- "http://ringmaster.cs.ucr.edu/Rings.html"
p <- html_session(url)
p %>% follow_link("")
徽标的html代码为:
<a href ="http://www.ucr.edu/">
<img class="pos_fixed" src="images/ucr_logo.jpg" >
</a>
我非常感谢。
答案 0 :(得分:3)
您可以使用:
p %>% follow_link(css = "#container > a:nth-child(1)")
查看?follow_link
您还可以提供 css 或 xpath 选择器。
另请参阅http://selectorgadget.com/了解如何获取css选择器
答案 1 :(得分:3)
试试这个:
library(rvest)
url <- "http://ringmaster.cs.ucr.edu/Rings.html"
p <- html(url) %>% html_node("a") %>% xml_attr("href")
现在p
包含您需要的网址。
有关rvest
http://blog.rstudio.org/2014/11/24/rvest-easy-web-scraping-with-r/