我是网络抓取的新手。我正在尝试使用R中的rvest包搜索页面。 通常它会从页面中提取表单,然后在输入中设置值并提交。
通常如果您执行此操作:
library(rvest)
url <- "www.google.com"
url %>% read_html() %>% html_form()
它将重新格式化:
[[1]]
<form> 'f' (GET /search)
<input hidden> 'ie': ISO-8859-1
<input hidden> 'hl': fr
<input hidden> 'source': hp
<input hidden> 'biw':
<input hidden> 'bih':
<input text> 'q':
<input submit> 'btnG': Recherche Google
<input submit> 'btnI': J'ai de la chance
<input hidden> 'gbv': 1
我正在使用的网页遇到的问题是输入格式不正确:
library(rvest)
url <- "http://www.seloger.com/"
url %>% read_html() %>% html_form() #newsletter form only
url %>% read_html() %>% html_node("input") # i get my input
所以输入不在 我能做什么?我该如何提交搜索?
谢谢。