应用错误收集

如何从受Shibboleth保护的网站上抓取数据？

时间：2011-05-25 04:03:57

标签： screen-scraping shibboleth

我正在尝试从我的大学网站上搜索数据，该网站使用Shibboleth作为身份验证/保护的一种形式。但是，我很难确定通过它的最佳方式以及我希望抓到的页面。我有有效的凭据，我可以用来登录。有没有人对如何完成这项任务有任何建议？

5 个答案:

答案 0 :(得分：1)

我一直致力于成功编写Shibbolized登录脚本（在我的例子中，用于监控Shibboleth IdP及其保护的应用程序的运行状况）。

我正在使用Python的urllib模块及其类来处理重定向跟随和cookie传递（用于Shibboleth）和登录表单发布。经过一些修补后，urllib可以通过Shibbolized登录获得大部分成功。您可以使用此方法来处理对Shibbolized网站的初始登录，然后通过直接使用Python的urllib来处理抓取。

Example Python script for logging into Shibboleth

答案 1 :(得分：0)

您可以使用Mechanize提交表单并登录网站：http://wwwsearch.sourceforge.net/mechanize/

答案 2 :(得分：0)

我认为ECP个人资料被设计为通过非浏览器客户端（即命令行）访问Shibboleth受保护的资源

尝试上面链接的Shibboleth wiki页面上提供的示例客户端之一

答案 3 :(得分：0)

您还可以尝试Apache JMeter，只需记录您的操作，制作一些脚本（就shibboleth来说就不那么容易了），并且您可以自动访问这些页面。

[编辑 - 更好的解决方案] 我相信在Shibboleth文档页面上scripts用于Grinder（另一种负载测试工具）。这个测试计划实际上Python（ok Jython）脚本应该很容易修改并用于你的目的

答案 4 :(得分：0)

回复非常晚，但是您可以在验证通过后使用Facebook Webdriver登录并抓取。