Rcrawler包:ContentScraper错误

时间:2017-12-17 18:14:42

标签: r web-scraping

我的Rcrawler包的ContentScraper功能存在问题。我想从this site中提取一些关于到达和离开的时间和机场以及价格的信息:(我从this site获取灵感)

MY_Data=ContentScraper(CssPatterns = c(".leg",".price"), ManyPerPattern = T, Url = "http://www.skyscanner.it/trasporti/voli/rome/lond/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view#results")

但是我收到了这个错误:

Error in LinkExtractor(url = Ur, encod = encod) : object 'Extlinks' not found

我查看了LinkExtractor函数,但我不知道它为什么找不到Extlinks,因为它应该由函数本身创建。不是吗? 有人可以帮帮我吗?

谢谢!

2 个答案:

答案 0 :(得分:2)

本网站不允许抓取。这可能是您的示例不起作用的一个原因。您可以尝试in this web。我还建议您尝试使用更易于使用的rvest包。

答案 1 :(得分:0)

我已经使用Rcrawler + phantomjs Web驱动程序尝试了相同的请求,但没有结果,有针对非真实会话的某种javascript保护,

temp2.df

我检索了会话Screenshot,可以确认加载结果的javascript卡住了。

使用无头的Rselenium + chrome(启用gpu),我得到了机器人检查页面。 (查看图片)

因此,合法获取数据的唯一希望就是使用其API

enter image description here syscanner robot check

爬行者创建者