使用xpathSApply进行Web抓取。获取xmlValue

时间:2016-06-07 09:34:59

标签: r web-scraping

例如,我想提取价格(右上角)和空格(容纳:2,浴室:1等)https://www.airbnb.com/rooms/12949270?guests=1&s=_JaPbz-J

这是我的价格代码:

remDr$navigate(url)
doc <- htmlParse(remDr$getPageSource()[[1]])
var <- remDr$findElement('id','details')

varxml <- htmlTreeParse(vartxt, useInternalNodes=T)
Price <- xpathApply(varxml,"//div[@class='book-it__price-amount h3 text-special pull-left']",xmlValue)

但它返回我的空列表。也许它是hapepend,因为课程&#34;&#39; book-it__price-amount h3 text-special pull-left&#39;上流社会不是?如果是这样 - 如何纠正?如果没有,我在哪里弄错了?

1 个答案:

答案 0 :(得分:0)

对我来说,下面的代码有效。关于网上的禁止刮刀。一般情况下,如果您不允许使用刮刀,则如果您将数据用于商业用途,或者您定期发送获取请求,则会冒险。所以取决于你将如何使用它

library(RCurl)
library(XML)

url<-getURL("https://www.airbnb.cz/rooms/12949270?guests=1&s=_JaPbz-J",ssl.verifypeer = F)
url2<-htmlParse(url)
Price <- xpathSApply(url2,"//div[@class='book-it__price-amount h3 text-special pull-left']",xmlValue)
conditions <- xpathSApply(url2,"//div[@class='col-md-6']",xmlValue)