Question

我试图更好地理解R中的互联网连接，虽然周围散布着一些信息，但我发现很难理解。希望这个问题可以将信息结合在一起。我的问题是如下。我在办公室电脑上工作，有防火墙。我已经测试了如何在R中抓取网页并发现以下内容。

此代码现在可以使用，因为我已从包列表中删除了curl。

library(rvest)

lego_movie <- read_html("http://www.imdb.com/title/tt1490017/")

lego_movie %>%
  html_node("strong span") %>%
  html_text() %>%
  as.numeric()

[1] 7.8

但是我试图关注https://datascienceplus.com/scraping-javascript-rendered-web-content-using-r/这个需要V8包的例子（需要卷曲）。当我安装以下curl软件包时：

lego_movie <- read_html("http://www.imdb.com/title/tt1490017/")
Error in open.connection(x, "rb") : Empty reply from server

因此存在代理问题但是如何安装curl安装尽可能多的软件包使用它？如果我再次移除curl，我可以继续rvest仅抓取。 curl如果不使用curl（httr似乎使用curl，但rvest仍然有效），rvest如何阻止我的正常curl installation 3.1 rvest installation 0.3.2 R 3.4.3抓取？我发现这很令人困惑。

<rule>
    <match url="(.*)" />
    <conditions>
        <add input="{HTTP_HOST}" pattern="^domain1\." negate="true" />
        <add input="{HTTP_HOST}" pattern="^(www\.)?.*?\.(.*)$" />
    </conditions>
    <action type="Redirect" url="http://domain1.{C:2}/{R:1}" />
</rule>

有和没有卷曲的Rvest

0 个答案: