使用rvest进行webscraping时出错500

时间:2017-09-12 18:46:27

标签: web-scraping rvest

我正在尝试使用下面的代码进行网络搜索,但收到以下警告消息:

  

在request_POST(session,url = url,body = request $ values,encode = request $ encode,:     内部服务器错误(HTTP 500)

我做错了什么?

库(rvest):

sisben <-html_session("https://wssisbenconsulta.sisben.gov.co/dnp_sisbenconsulta/dnp_sisben_consulta.aspx")

form <- html_form(sisben)[[1]]

fillform <- set_values(form,"ddlTipoDocumento" = "Cédula de Ciudadanía", "tboxNumeroDocumento" = "1234")

sis <- submit_form(session=sisben, form=fillform)

1 个答案:

答案 0 :(得分:0)

您确切想要抓什么数据?对我而言,代码看起来好像是与页面交互(填写表单并提交),但我没有看到任何用于刮取数据的rvest代码。

关于你的错误: 查看html源代码,看起来您只提交了“Tipo de Documento”的标签,但没有提供正确的内部值(已编号)

<option value="-1">Seleccione...</option>
<option value="1">C&#233;dula de Ciudadan&#237;a</option>
<option value="3">C&#233;dula de Extranjer&#237;a</option>
<option selected="selected" value="4">Registro Civil</option>
<option value="2">Tarjeta de Identidad</option>

我没有使用选项值作为输入收到错误:

fillform <- set_values(form,"ddlTipoDocumento" = "1", "tboxNumeroDocumento" = "1234")
sis <- submit_form(session=sisben, form=fillform)

导致输出:

  

使用'tboxNumeroDocumento'

提交

也许这已经是你要找的了?