使用python

时间:2017-04-11 06:56:54

标签: python ldap

我想访问以下大学网站https://java.access.uni.edu/ed/faces/searchStudent.jsp的所有学生的学生详细信息 我不知道学生的名字,我想访问每个学生的详细信息。 该目录是开放的,没有任何违法行为。 我使用以下github代码作为参考。 https://github.com/JoshuaRLi/direktory/blob/master/direktory.py 请帮忙!

1 个答案:

答案 0 :(得分:0)

您可以使用bs4 beautifulsoup来帮助您从给定目录中删除内容...它基本上称为网络抓取..

在你的github链接中代表什么......

另一种方法是,selenium webdriver .. 从这个方法中,您可以简单地传递url,然后给出相应的字段名称及其值。

您可以从selenium本身触发API网址...

其他您可以使用 python请求方法直接发送POST请求并获得响应...

这是例如:

>>> import requests
>>> r = requests.post("https://java.access.uni.edu/ed/faces/searchStudent.jsp;jsessionid=e8093da105003620293edb31ec442edfdfa514485389b950c4f20b46515aa640.e34Sbx0MaNuObi0LahiMaxmRb30Re0", data={'txtLastName':'mohamemd','txtFirstName':'mohideen','txtEmail':'temp@mail.com','soMajor':0,'soCollege':0,'soClass':0})
>>> r.status_code
200
>>> r.text[:300]
u'<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"\r\n"http://www.w3.org/TR/html4/loose.dtd">\r\n\r\n\r\n\r\n\r\n\r\n\r\n  <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/loose.dtd"><html dir="ltr" lang="en-US">\r\n    <head id="head1"><title>UNI Directory - Student Search</t'
>>> a = r.text[:300]
>>> len(a)
300
>>> 

这里我将输出限制在300 ..如果你想要完整,你可以简单地打印,

r.text