使用BeautifulSoup和Requests刮擦复杂表单

时间:2017-04-26 06:18:03

标签: python html beautifulsoup screen-scraping

下面是我的Python代码片段以及我试图抓取的页面中的HTML。

HTML是一种复杂的形式,我在抓取时遇到了麻烦。我正在使用BeautifulSoup4和Python请求但是当我发布到页面时,表单没有正确接收正确的输入。我猜它与我试图提交的实际选择之上的所有这些隐藏输入有关。

如果我在使用Chrome时检查提交的表单数据,这就是我看到的内容。

Chrome Developer Console View

通过浏览器使用页面时,唯一需要选择的字段是 select name =“sel_subj ,如下所示。但是当回发到页面时,这将失败

new_url = 'https://wl11gp.neu.edu/udcprod8/NEUCLSS.p_class_search'

requests.post(new_url, data={'STU_TERM_IN':201730,
                            'p_msg_code': UNSECURED',
                            'sel_subj': 'ACCT'})

要查看我正在尝试抓取的页面的实际版本,请访问此链接,选择“2017年春季学期”并点击提交:https://wl11gp.neu.edu/udcprod8/NEUCLSS.p_disp_dyn_sched

0 个答案:

没有答案