我试图更好地理解R中的互联网连接,虽然周围散布着一些信息,但我发现很难理解。希望这个问题可以将信息结合在一起。我的问题是如下。我在办公室电脑上工作,有防火墙。我已经测试了如何在R中抓取网页并发现以下内容。
此代码现在可以使用,因为我已从包列表中删除了curl
。
library(rvest)
lego_movie <- read_html("http://www.imdb.com/title/tt1490017/")
lego_movie %>%
html_node("strong span") %>%
html_text() %>%
as.numeric()
[1] 7.8
但是我试图关注https://datascienceplus.com/scraping-javascript-rendered-web-content-using-r/这个需要V8
包的例子(需要卷曲)。当我安装以下curl
软件包时:
lego_movie <- read_html("http://www.imdb.com/title/tt1490017/")
Error in open.connection(x, "rb") : Empty reply from server
因此存在代理问题但是如何安装curl
安装尽可能多的软件包使用它?如果我再次移除curl
,我可以继续rvest
仅抓取。 curl
如果不使用curl(httr似乎使用curl,但rvest仍然有效),rvest
如何阻止我的正常curl installation 3.1
rvest installation 0.3.2
R 3.4.3
抓取?我发现这很令人困惑。
<rule>
<match url="(.*)" />
<conditions>
<add input="{HTTP_HOST}" pattern="^domain1\." negate="true" />
<add input="{HTTP_HOST}" pattern="^(www\.)?.*?\.(.*)$" />
</conditions>
<action type="Redirect" url="http://domain1.{C:2}/{R:1}" />
</rule>