Web用R刮擦桌子

时间:2019-05-15 06:16:04

标签: r json web-scraping

我正在尝试从音调书网站上抓一张桌子。  但是使用简单的HTML无效,因为宣传册使用Java脚本而不是HTML来加载数据,因此我需要执行JS才能从json文件中提取信息。 这是我的代码:

    library(httr)
    library(jsonlite)
    library(magrittr)  
    json=get("https://my.pitchbook.com/old/ 
    homeContent.64ea0536fd321cc1dd3b.js") %>% 
    content(as='text') %>% 
    fromJSON()

我收到此错误:

    Error in 
   get("https://my.pitchbook.com/old/homeContent.64ea0536fd321cc1dd3b.js") 
    : 
     object 
  'https://my.pitchbook.com/old/homeContent.64ea0536fd321cc1dd3b.js'
   not found

我尝试加载的任何数据都会返回相同的错误。 会感谢您的帮助:) 谢谢:)

1 个答案:

答案 0 :(得分:0)

您已经致电base::get,而不是httr::GET。 所以应该是

library(httr)
library(jsonlite)
library(magrittr)  
json <- GET(
  "https://my.pitchbook.com/old/homeContent.64ea0536fd321cc1dd3b.js"
) %>% 
  content("text") %>% 
  fromJSON()

但是我不能完全确定您的网站网址是否提供了有效的json。这本身会给

  

词法错误:json文本中的无效字符。