为什么我的提交表单网络抓取代码不起作用?

时间:2019-03-29 17:10:28

标签: python forms web-scraping

我正在尝试访问此网站的表:https://aplicacoes.mds.gov.br/sagirmps/estrutura_fisica/preenchimento_municipio_cras_new1.php

因此,您需要以“ Selecione um estado”形式选择一个州,然后将有一个新的城市表格称为“ Selecione ummunicípio”。选择所需的城市后,便会刮掉桌子。但是我的代码只能获取网站初始状态的html代码:

import requests
url = 'http://aplicacoes.mds.gov.br/sagirmps/estrutura_fisica/preenchimento_municipio_cras_new1.php'
data = {'Selecione um estado':'SP - São Paulo', 'Selecione um município': 'Bauru'}
r = requests.post(url, data = data)

r.text

我已尝试在发布请求中使用params而不是data,但是它们都不起作用。

1 个答案:

答案 0 :(得分:1)

它需要为我忽略SSL Cert错误。尝试以下操作(感谢@SIM提供的评论和建议)

import requests
from bs4 import BeautifulSoup  
import pandas as pd
import urllib3; urllib3.disable_warnings(urllib3.exceptions.InsecureRequestWarning)
url = 'https://aplicacoes.mds.gov.br/sagirmps/estrutura_fisica/preenchimento_municipio_cras_new1.php'
params ={
    'uf_ibge' : '27',
    'nome_estado' : 'AL - Alagoas',
    'p_ibge' : '2700201',
    'nome_municipio' : 'Anadia'
}


r = requests.post(url, params = params, verify=False).
soup = BeautifulSoup(r.text, "lxml")
tables = pd.read_html(r.text)
print(tables[1])

这是针对AL-Alagoas和Anadia