python中的爬虫

时间:2011-05-10 17:23:51

标签: python

我有一个网站(我的大学网站),每个学生都有一个用户名/密码登录他的帐户。该网站包含许多以不同格式上传的文件。我想以编程方式输入我的凭据并登录到我的帐户并下载已在网站上传的所有文件。

是否有任何python模块可以验证html表单并提供对页面的访问权限,然后允许下载这些页面中的文件?

1 个答案:

答案 0 :(得分:2)

我会看http://scrapy.org。它是基于python的爬虫/刮刀,您可以自定义以执行您想要的任何工作流程。以下是如何处理用户身份验证的示例:http://doc.scrapy.org/topics/request-response.html?highlight=username#request-usage-examples