为nutch1.13

时间:2017-07-06 05:48:02

标签: nutch

我将使用Nutch1.13抓取一个网站,但该网站需要http post认证。我发现Nutch wiki有一些内容:HttpPostAuthentication

它说:

  

配置文件,其中包含要与其进行身份验证的域列表以及登录URL和POST数据。

我想知道我应该将配置信息放在哪个文件中? 我没有在文章中找到任何具体的例子。

我还找到另一个链接:NUTCH-827。那么我是否需要对源代码进行更改并重建以实现Http Post身份验证或者已经在nutch1.13中进行了更改?

1 个答案:

答案 0 :(得分:1)

要指定Nutch需要使用您的配置加载哪个文件,您应该使用http.auth.file中的nutch-site.xml键,您可以查看httpclient-auth.xml.template中提供的示例配置。特别是从这一行https://github.com/apache/nutch/blob/master/conf/httpclient-auth.xml.template#L61开始。

请注意,您需要启用protocol-httpclient插件。最后你不需要修改Nutch作为NUTCH-827的状态,这是自v1.10以来解决和合并的状态。