Nutch:通过在标头中放置cookie进行身份验证

时间:2013-07-10 21:35:43

标签: http authentication cookies solr nutch

我很惊讶,因为Nutch能够抓取需要身份验证的网站部分,所以支持或信息很少。

我知道Apache Nutch目前无法(but apparently hopes to)支持Http POST身份验证。

但是,我们真正想做的就是能够在我们的Nutch机器人标题中添加一个cookie,允许它以这种方式访问​​网站的那些部分(而不是将用户名和密码发布到表单然后接收饼干)。

所以我花了很多时间搜索,并且很惊讶大多数关于此的讨论都是在2005年或2008年:herethereeverywhere。< / p>

经过这么多年,无论如何都要解决这个限制,或者仍然没有办法通过给Nutch一个“预烘焙”的cookie进行身份验证,以便它只能访问我们网站的成员部分吗?

1 个答案:

答案 0 :(得分:3)

我已经为nutch protocol-httpclient插件添加了自定义代码来解决这个问题。

分享以下链接中的更改

http://www.gingercart.com/Home/search-and-crawl/nutch-custom-authentication-cookies-session-management-to-crawl-secure-enterprise-websites