Web抓取:使用chrome开发人员工具可见html结构,但不能使用htmlTreeParse(R)

时间:2016-05-20 10:11:19

标签: javascript jquery html r web-scraping

我使用R进行网页抓取,使用以下包:XML,RCurl,httr等。

抓取此网站时遇到问题:

url="http://www.elysee.fr/declarations/?search_index=2"

我尝试用法国总统的演讲进行一些文本挖掘。但是我不能像平常那样阅读html页面。

通常,我首先尝试使用Chrome开发者工具检查html页面。

page = htmlTreeParse((url),useInternal = TRUE,encoding="utf8")

对于此页面,使用Chrome开发人员工具,我可以看到我可以使用此class:a[@class="main-link"]获取所有演讲的href。所以我通常会这样做:

links = unlist(xpathApply(page, '//a[@class="main-link"]', xmlGetAttr,"href"))

但是,html代码中没有a[@class="main-link"]。实际上,当我下载html页面时:

dput(getURL(url),"page.txt")

我在class="main-link"中找不到任何(page.txt)。

1 个答案:

答案 0 :(得分:0)

我找到了解决方案:硒!并且使用R,有一个包:rselenium。