使用rvest

时间:2017-09-08 08:33:57

标签: r web-scraping rvest

我是网络抓取的新手。我正在尝试使用R中的rvest包搜索页面。 通常它会从页面中提取表单,然后在输入中设置值并提交。

通常如果您执行此操作:

library(rvest)
url <- "www.google.com"
url %>% read_html() %>% html_form()

它将重新格式化:

[[1]]
<form> 'f' (GET /search)
 <input hidden> 'ie': ISO-8859-1
 <input hidden> 'hl': fr
 <input hidden> 'source': hp
 <input hidden> 'biw': 
 <input hidden> 'bih': 
 <input text> 'q': 
 <input submit> 'btnG': Recherche Google
 <input submit> 'btnI': J'ai de la chance
 <input hidden> 'gbv': 1

我正在使用的网页遇到的问题是输入格式不正确:

library(rvest)
url <- "http://www.seloger.com/"
url %>% read_html() %>% html_form() #newsletter form only
url %>% read_html() %>% html_node("input") # i get my input

所以输入不在 我能做什么?我该如何提交搜索?

谢谢。

0 个答案:

没有答案