Question

我使用R进行网页抓取，使用以下包：XML，RCurl，httr等。

抓取此网站时遇到问题：

url="http://www.elysee.fr/declarations/?search_index=2"

我尝试用法国总统的演讲进行一些文本挖掘。但是我不能像平常那样阅读html页面。

通常，我首先尝试使用Chrome开发者工具检查html页面。

page = htmlTreeParse((url),useInternal = TRUE,encoding="utf8")

对于此页面，使用Chrome开发人员工具，我可以看到我可以使用此class:a[@class="main-link"]获取所有演讲的href。所以我通常会这样做：

links = unlist(xpathApply(page, '//a[@class="main-link"]', xmlGetAttr,"href"))

但是，html代码中没有a[@class="main-link"]。实际上，当我下载html页面时：

dput(getURL(url),"page.txt")

我在class="main-link"中找不到任何（page.txt）。

Answer 1

我找到了解决方案：硒！并且使用R，有一个包：rselenium。