您好我可以使用html敏捷包抓取未受保护的http网站。但是一些https安全的网站将需要身份验证(可能是表单身份验证)来查看其内容,因此我无法抓取。我看到IBM的omnifind crawler plug我们可以将它用于.net。你们能不能提示如何处理这个问题。
答案 0 :(得分:0)
您显然需要凭据,因此您应该理清认证位的工作方式。
假设它是基于表单的,那么使用CookieContainer(http://msdn.microsoft.com/en-us/library/dd920298(v=vs.95).aspx)
实现某些功能应该不会有任何问题该链接底部的示例显示了如何迭代从站点返回的cookie。
这是一个现有的问题,应该有助于指导您:WebRequest class to post data to login form
干杯。