有和没有卷曲的Rvest

时间:2018-02-27 12:07:45

标签: r curl rvest

我试图更好地理解R中的互联网连接,虽然周围散布着一些信息,但我发现很难理解。希望这个问题可以将信息结合在一起。我的问题是如下。我在办公室电脑上工作,有防火墙。我已经测试了如何在R中抓取网页并发现以下内容。

此代码现在可以使用,因为我已从包列表中删除了curl

library(rvest)

lego_movie <- read_html("http://www.imdb.com/title/tt1490017/")

lego_movie %>%
  html_node("strong span") %>%
  html_text() %>%
  as.numeric()

[1] 7.8

但是我试图关注https://datascienceplus.com/scraping-javascript-rendered-web-content-using-r/这个需要V8包的例子(需要卷曲)。当我安装以下curl软件包时:

lego_movie <- read_html("http://www.imdb.com/title/tt1490017/")
Error in open.connection(x, "rb") : Empty reply from server

因此存在代理问题但是如何安装curl安装尽可能多的软件包使用它?如果我再次移除curl,我可以继续rvest仅抓取。 curl如果不使用curl(httr似乎使用curl,但rvest仍然有效),rvest如何阻止我的正常curl installation 3.1 rvest installation 0.3.2 R 3.4.3 抓取?我发现这很令人困惑。

<rule>
    <match url="(.*)" />
    <conditions>
        <add input="{HTTP_HOST}" pattern="^domain1\." negate="true" />
        <add input="{HTTP_HOST}" pattern="^(www\.)?.*?\.(.*)$" />
    </conditions>
    <action type="Redirect" url="http://domain1.{C:2}/{R:1}" />
</rule>

0 个答案:

没有答案