html_session,read_html,readLines,GET,getURL all freeze

时间:2018-03-29 21:03:41

标签: r web-scraping rvest rcurl httr

几个月来,我已经能够阅读这个页面了,但从星期三开始,它就冻结了。

myURL <- "http://www.nasdaq.com/symbol/fb"
webpage <- readLines(myURL)

我试过了:

  1. read_html(rvest)
  2. html_session(rvest)也重置用户代理 - 没有变化。
  3. readLines这曾经是我所需要的。现在它像所有其他方法一样冻结。
  4. GET(httr)
  5. getURL(RCurl)
  6. 通过Windows上的R studio和直接在Ubuntu服务器上的R中尝试所有这些。冻结无处不在。
  7. 点击网络标签上的Chrome开发者工具,尝试了解为什么这种情况很容易在浏览器中加载而在R中根本没有。我没有看到任何吸烟枪,但我不是专家。
  8. 如果有人能够弄清楚如何在没有冻结的情况下获取页面,那么这就是我需要解决的所有帮助。谢谢!

1 个答案:

答案 0 :(得分:0)

我不确定您要收集哪些网页部分,但我已成功获取此代码的一些重要信息:

library(rvest)
library(dplyr)
url <- "https://www.nasdaq.com/symbol/fb"
read_html(url) -> foo
html_nodes(foo, css = "b") %>% html_text()

你能运行上面的代码吗?它能满足您的需求吗?根据您需要从网站上获得哪些数据,您可能需要使用SelectorGadget之类的工具来查找所需的css值。

我希望这会有所帮助。如果没有,请详细说明。