下载完整的HTML

时间:2016-02-12 08:11:17

标签: r html-parsing

我试图使用R来搜索一些网站。但是,由于原因不明,我无法从网站上获取所有信息。我找到了一个解决方法,首先下载完整的网页(另存为浏览器)。我想知道是否使用某些功能下载完整的网站。 我试过" download.file"和" htmlParse"但他们似乎只下载源代码。

url = "http://www.tripadvisor.com/Hotel_Review-g2216639-d2215212-Reviews-Ayurveda_Kuren_Maho-Yapahuwa_North_Western_Province.html"

download.file(url , "webpage")
doc <- htmlParse(urll)
ratings = as.data.frame(xpathSApply(doc,'//div[@class="rating reviewItemInline"]/span//@alt'))

1 个答案:

答案 0 :(得分:0)

这与rvest一起工作。

llply(html(url) %>% html_nodes('div.rating.reviewItemInline'),function(i)
data.frame(nth_stars = html_nodes(i,'img') %>% html_attr('alt'),
date_var = html_text(i)%>%stri_replace_all_regex('(\n|Reviewed)','')))