对基于表单身份验证的https网站进行爬网

时间:2013-02-16 18:05:21

标签: .net asp.net-mvc-3 c#-4.0

您好我可以使用html敏捷包抓取未受保护的http网站。但是一些https安全的网站将需要身份验证(可能是表单身份验证)来查看其内容,因此我无法抓取。我看到IBM的omnifind crawler plug我们可以将它用于.net。你们能不能提示如何处理这个问题。

1 个答案:

答案 0 :(得分:0)

您显然需要凭据,因此您应该理清认证位的工作方式。

假设它是基于表单的,那么使用CookieContainer(http://msdn.microsoft.com/en-us/library/dd920298(v=vs.95).aspx

实现某些功能应该不会有任何问题

该链接底部的示例显示了如何迭代从站点返回的cookie。

这是一个现有的问题,应该有助于指导您:WebRequest class to post data to login form

干杯。