我试图通过使用R和phantom.js来扫描热线数据点(总温室气体,人均温室气体,温室气体每BTU)并从下一页下载图表:
http://apps1.eere.energy.gov/sled/#/results/home?city=Omaha&abv=NE
这是我的代码:
url <- "http://apps1.eere.energy.gov/sled/#/results/home?city=Omaha&abv=NE"
writeLines(sprintf("var page = require('webpage').create();
page.open('%s', function () {
console.log(page.content); //page source
phantom.exit();
});", url), con="scrape.js")
system("phantomjs scrape.js > eere.html")
pg <- read_html("eere.html")
pg %>% html_nodes("CLASS") %>% html_text()
CLASS是我尚未确定的课程。 Here's the html I'm getting for eere.html.它只包含页眉和页脚内容,无法抓取页面正文。
有什么建议吗?