我想在提交表单后解析网站上的数据,并且我使用requests
库来执行此操作。
这是website。该网站上有一个表格。提交表单后,页面重新加载,并生成一个包含信息的新表,以及我想要的信息。
我手动提交表单时的标题:
activeFormName:report_builder_form
repProviance:66
repStation:40754
parameters:1
start_year:1951
end_year:1963
SearchBtn:جستجو
SearchBtn:جستجو
__sisReportRowCount:10
__sisReportParamType:simple`
我使用数据字典发送帖子请求:
import requests
from bs4 import BeautifulSoup
form_data = {
'activeFormName':'report_builder_form',
"repProviance": 66,
'repStation': 40754,
'parameters':1 ,
"start_year": 1951,
"end_year": 1963,
"SearchBtn":"%D8%AC%D8%B3%D8%AA%D8%AC%D9%88",
# "SearchBtn":"جستجو", ### This line and above are the same.
"__sisReportParamType": 'simple',
"__sisReportRowCount": 10
}
respones = requests.post(url,data=form_data)
s = BeautifulSoup(respones.content,'lxml')
但它总是给我一个不包含任何信息的HTML文件。
答案 0 :(得分:1)
import time
import requests
from bs4 import BeautifulSoup
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
url = '.......'
ses = requests.Session()
respones = ses.get(url)
time.sleep(5)
pay_load = {
'activeFormName':'report_builder_form',
"repProviance": 66,
'repStation': 40754,
'parameters':1 ,
"start_year": 1951,
"end_year": 1963,
"SearchBtn":"%D8%AC%D8%B3%D8%AA%D8%AC%D9%88",
# "SearchBtn":"جستجو",
"__sisReportParamType": 'simple',
"__sisReportRowCount": 10
}
s =ses.post(respones.url, data=pay_load)
soup = BeautifulSoup(s.content,'html.parser')
print(soup.prettify())
尝试发布像这样的数据