在Apache Nutch中设置cookie头

时间:2016-06-04 12:46:18

标签: web-crawler nutch

我想抓取使用Cookie进行身份验证的特定网站。我想在Apache Nutch为抓取网站的每个GET请求中设置cookie和用户代理信息。

如何在配置中指定cookie信息,或者是否需要为此目的编写自定义插件?

1 个答案:

答案 0 :(得分:1)

目前还没有手动指定Nutch在获取网址时发送的Cookie /标头的方式。插件protocol-httpclient支持基于表单的身份验证,请查看httpclient-auth.xml文件。我认为这不会太难实施,我们总是欢迎捐款。