Question

例如，我想提取价格（右上角）和空格（容纳：2，浴室：1等）https://www.airbnb.com/rooms/12949270?guests=1&s=_JaPbz-J

这是我的价格代码：

remDr$navigate(url)
doc <- htmlParse(remDr$getPageSource()[[1]])
var <- remDr$findElement('id','details')

varxml <- htmlTreeParse(vartxt, useInternalNodes=T)
Price <- xpathApply(varxml,"//div[@class='book-it__price-amount h3 text-special pull-left']",xmlValue)

但它返回我的空列表。也许它是hapepend，因为课程＆＃34;＆＃39; book-it__price-amount h3 text-special pull-left＆＃39;上流社会不是？如果是这样 - 如何纠正？如果没有，我在哪里弄错了？

Answer 1

对我来说，下面的代码有效。关于网上的禁止刮刀。一般情况下，如果您不允许使用刮刀，则如果您将数据用于商业用途，或者您定期发送获取请求，则会冒险。所以取决于你将如何使用它

library(RCurl)
library(XML)

url<-getURL("https://www.airbnb.cz/rooms/12949270?guests=1&s=_JaPbz-J",ssl.verifypeer = F)
url2<-htmlParse(url)
Price <- xpathSApply(url2,"//div[@class='book-it__price-amount h3 text-special pull-left']",xmlValue)
conditions <- xpathSApply(url2,"//div[@class='col-md-6']",xmlValue)

使用xpathSApply进行Web抓取。获取xmlValue

1 个答案: