Python - 在与其他多个页面共享URL时下载页面的HTML

时间:2017-03-16 02:10:59

标签: python python-2.7 python-3.x selenium python-requests

我目前正在编写一个python程序,该程序将从我大学的班级注册网站上获取数据,以便在某个班级的座位开放时我会收到通知。

我使用selenium来浏览各种下拉菜单和文本输入框。我可以成功访问我想要访问的页面,但是从页面到页面,URL在内容方面并不是唯一的。

例如,您选择所需主题的页面为https://wl11gp.neu.edu/udcprod8/NEUCLSS.p_class_select。如果我那么选择,比方说,英文写作网址变为https://wl11gp.neu.edu/udcprod8/NEUCLSS.p_class_search

无论我选择英语写作,数学,生物学还是任何科目,都是一样的。因此,如果我使用请求模块下载页面的HTML,我会收到404错误消息。

是否有一些方法可以在不提供URL的情况下下载当前页面的HTML?

提前感谢您的帮助!

1 个答案:

答案 0 :(得分:0)

通常情况下,您可以采用不同的方式格式化数据,但是为了让您快速了解如何处理python请求。

import requests

# all data here is the default except sel_subj=ACC
requests.post("https://wl11gp.neu.edu/udcprod8/NEUCLSS.p_class_search", data="sel_day=dummy&STU_TERM_IN=201754&sel_subj=dummy&sel_attr=dummy&sel_schd=dummy&sel_camp=dummy&sel_insm=dummy&sel_ptrm=dummy&sel_levl=dummy&sel_instr=dummy&sel_seat=dummy&p_msg_code=You+must+select+a+term.&sel_crn=&sel_subj=ACC&sel_crse=&sel_title=&sel_attr=%25&sel_levl=%25&sel_schd=%25&sel_insm=%25&sel_from_cred=&sel_to_cred=&sel_camp=%25&sel_ptrm=%25&sel_instr=%25&begin_hh=0&begin_mi=0&begin_ap=a&end_hh=0&end_mi=0&end_ap=a")