Nutch和Http POST身份验证?

时间:2012-07-05 22:13:07

标签: post nutch

我遇到了需要抓取有表单帖子的网站的问题。 Nutch不支持这一点。 我如何解决这个问题,以便使用Nutch抓取这些网站?有更好的解决方案吗?

2 个答案:

答案 0 :(得分:1)

  1. 创建一个包含数据的文件:regex用于需要使用auth / URL提交表单/表单数据的URL
  2. 制作自己的http协议插件,修改标准协议-httpclient插件。如果要生成http请求的URL需要auth并且尚未进行身份验证,那么请转到表单并发送。
  3. 这是最简单的解决方案。问题是,对于大量网站没有一个简单的解决方案。在登录/等等过程中,Cookie存在/使用Javascript存在问题。通过Nutch的JIRA搜索,有很多讨论。

答案 1 :(得分:-1)

以下是你们正在寻找的答案:

http://lifelongprogrammer.blogspot.com/2014/02/part1-using-apache-http-client-to-do-http-post-form-authentication.html

https://issues.apache.org/jira/browse/NUTCH-827

这两个链接有完整的示例代码。如果您正确地遵循每个步骤,那么您将能够在Nutch中实现基于表单的身份验证。