我使用R进行网页抓取,使用以下包:XML,RCurl,httr等。
抓取此网站时遇到问题:
url="http://www.elysee.fr/declarations/?search_index=2"
我尝试用法国总统的演讲进行一些文本挖掘。但是我不能像平常那样阅读html页面。
通常,我首先尝试使用Chrome开发者工具检查html页面。
page = htmlTreeParse((url),useInternal = TRUE,encoding="utf8")
对于此页面,使用Chrome开发人员工具,我可以看到我可以使用此class:a[@class="main-link"]
获取所有演讲的href。所以我通常会这样做:
links = unlist(xpathApply(page, '//a[@class="main-link"]', xmlGetAttr,"href"))
但是,html代码中没有a[@class="main-link"]
。实际上,当我下载html页面时:
dput(getURL(url),"page.txt")
我在class="main-link"
中找不到任何(page.txt
)。
答案 0 :(得分:0)
我找到了解决方案:硒!并且使用R,有一个包:rselenium。