我将使用Nutch1.13抓取一个网站,但该网站需要http post认证。我发现Nutch wiki有一些内容:HttpPostAuthentication。
它说:
配置文件,其中包含要与其进行身份验证的域列表以及登录URL和POST数据。
我想知道我应该将配置信息放在哪个文件中? 我没有在文章中找到任何具体的例子。
我还找到另一个链接:NUTCH-827。那么我是否需要对源代码进行更改并重建以实现Http Post身份验证或者已经在nutch1.13中进行了更改?
答案 0 :(得分:1)
要指定Nutch需要使用您的配置加载哪个文件,您应该使用http.auth.file
中的nutch-site.xml
键,您可以查看httpclient-auth.xml.template
中提供的示例配置。特别是从这一行https://github.com/apache/nutch/blob/master/conf/httpclient-auth.xml.template#L61开始。
请注意,您需要启用protocol-httpclient
插件。最后你不需要修改Nutch作为NUTCH-827的状态,这是自v1.10以来解决和合并的状态。