如何从受Shibboleth保护的网站上抓取数据?

时间:2011-05-25 04:03:57

标签: screen-scraping shibboleth

我正在尝试从我的大学网站上搜索数据,该网站使用Shibboleth作为身份验证/保护的一种形式。但是,我很难确定通过它的最佳方式以及我希望抓到的页面。我有有效的凭据,我可以用来登录。有没有人对如何完成这项任务有任何建议?

5 个答案:

答案 0 :(得分:1)

我一直致力于成功编写Shibbolized登录脚本(在我的例子中,用于监控Shibboleth IdP及其保护的应用程序的运行状况)。

我正在使用Python的urllib模块及其类来处理重定向跟随和cookie传递(用于Shibboleth)和登录表单发布。经过一些修补后,urllib可以通过Shibbolized登录获得大部分成功。您可以使用此方法来处理对Shibbolized网站的初始登录,然后通过直接使用Python的urllib来处理抓取。

Example Python script for logging into Shibboleth

答案 1 :(得分:0)

您可以使用Mechanize提交表单并登录网站:http://wwwsearch.sourceforge.net/mechanize/

答案 2 :(得分:0)

我认为ECP个人资料被设计为通过非浏览器客户端(即命令行)访问Shibboleth受保护的资源

尝试上面链接的Shibboleth wiki页面上提供的示例客户端之一

答案 3 :(得分:0)

您还可以尝试Apache JMeter,只需记录您的操作,制作一些脚本(就shibboleth来说就不那么容易了),并且您可以自动访问这些页面。

[编辑 - 更好的解决方案] 我相信在Shibboleth文档页面上scripts用于Grinder(另一种负载测试工具)。这个测试计划实际上Python(ok Jython)脚本应该很容易修改并用于你的目的

答案 4 :(得分:0)

回复非常晚,但是您可以在验证通过后使用Facebook Webdriver登录并抓取。