Question

我的Rcrawler包的ContentScraper功能存在问题。我想从this site中提取一些关于到达和离开的时间和机场以及价格的信息:(我从this site获取灵感）

MY_Data=ContentScraper(CssPatterns = c(".leg",".price"), ManyPerPattern = T, Url = "http://www.skyscanner.it/trasporti/voli/rome/lond/180201?adults=1&children=0&adultsv2=1&childrenv2=&infants=0&cabinclass=economy&rtn=0&preferdirects=false&outboundaltsenabled=false&inboundaltsenabled=false&ref=day-view#results")

但是我收到了这个错误：

Error in LinkExtractor(url = Ur, encod = encod) : object 'Extlinks' not found

我查看了LinkExtractor函数，但我不知道它为什么找不到Extlinks，因为它应该由函数本身创建。不是吗？有人可以帮帮我吗？

谢谢！

Answer 1

本网站不允许抓取。这可能是您的示例不起作用的一个原因。您可以尝试in this web。我还建议您尝试使用更易于使用的rvest包。

Answer 2

我已经使用Rcrawler + phantomjs Web驱动程序尝试了相同的请求，但没有结果，有针对非真实会话的某种javascript保护，

temp2.df

我检索了会话Screenshot，可以确认加载结果的javascript卡住了。

使用无头的Rselenium + chrome（启用gpu），我得到了机器人检查页面。（查看图片）

因此，合法获取数据的唯一希望就是使用其API

爬行者创建者

Rcrawler包：ContentScraper错误

2 个答案: