使用R(rvest)加载更多按钮的Scrape网站

时间:2017-08-10 11:04:18

标签: r selenium selenium-webdriver web-scraping rvest

我正在尝试使用更多加载按钮来抓取网站。我使用Windows提示符设置了一个selenium服务器。 Selenium服务器正在运行,但是当我在R中运行脚本时,我一直收到以下错误。我已经发布了许多博客文章并试图找到答案,但我缺乏技术知识来解决这个问题,所以我希望有人愿意帮助我。

错误

  

[1]“连接到远程服务器”

     

Selenium消息:驱动程序可执行文件的路径必须由   webdriver.gecko.driver系统属性;有关更多信息,请参阅   https://github.com/mozilla/geckodriver。最新版本可以   从https://github.com/mozilla/geckodriver/releases

下载      

错误:摘要:UnknownError详细信息:未知的服务器端错误   处理命令时发生。类:   java.lang.IllegalStateException更多详细信息:运行errorDetails   方法

Windows提示

cd c:\selenium
java -Dwebdriver.chrome.driver=c:\geckodriver\chromedriver.exe -
Dwebdriver.gecko.driver.driver=c:\geckodriver\geckodriver.exe -jar selenium-
server-standalone-3.4.0.jar

R SCRIPT

library(rvest)
library(RSelenium)
library(stringr)
library(xm12)
library(wdman)
url <- "https://www.social-enterprise.nl/wie-doen-het/" 

remDr <- remoteDriver()
# Open the browser webpage
remDr$open()

#navigate to your page
remDr$navigate(url)

# Locate the load more button
loadmorebutton <- remDr$findElement(using = 'css selector', "#morenews")

for (i in 1:2){
  print(i)
  loadmorebutton$clickElement()
  Sys.sleep(30)
}
page_source<-remDr$getPageSource()

Merken <- read_html(page_source[[1]]) %>% 
  html_nodes("#membershipCntr span") %>%
  html_text()
remDr$close()

1 个答案:

答案 0 :(得分:0)

您缺少远程Web驱动程序实例化中的某些选项。您可以尝试以下代码,

@Html()