R和phantom.js:不能刮掉主内容块

时间:2017-05-12 03:00:14

标签: r web-scraping

我试图通过使用R和phantom.js来扫描热线数据点(总温室气体,人均温室气体,温室气体每BTU)并从下一页下载图表:

http://apps1.eere.energy.gov/sled/#/results/home?city=Omaha&abv=NE

这是我的代码:

url <- "http://apps1.eere.energy.gov/sled/#/results/home?city=Omaha&abv=NE"

writeLines(sprintf("var page = require('webpage').create();
page.open('%s', function () {
    console.log(page.content); //page source
    phantom.exit();
});", url), con="scrape.js")

system("phantomjs scrape.js > eere.html")

pg <- read_html("eere.html")
pg %>% html_nodes("CLASS") %>% html_text()

CLASS是我尚未确定的课程。 Here's the html I'm getting for eere.html.它只包含页眉和页脚内容,无法抓取页面正文。

有什么建议吗?

0 个答案:

没有答案