我很惊讶,因为Nutch能够抓取需要身份验证的网站部分,所以支持或信息很少。
我知道Apache Nutch目前无法(but apparently hopes to)支持Http POST身份验证。
但是,我们真正想做的就是能够在我们的Nutch机器人标题中添加一个cookie,允许它以这种方式访问网站的那些部分(而不是将用户名和密码发布到表单然后接收饼干)。
所以我花了很多时间搜索,并且很惊讶大多数关于此的讨论都是在2005年或2008年:here,there,everywhere。< / p>
经过这么多年,无论如何都要解决这个限制,或者仍然没有办法通过给Nutch一个“预烘焙”的cookie进行身份验证,以便它只能访问我们网站的成员部分吗?
答案 0 :(得分:3)
我已经为nutch protocol-httpclient插件添加了自定义代码来解决这个问题。
分享以下链接中的更改