我遇到了需要抓取有表单帖子的网站的问题。 Nutch不支持这一点。 我如何解决这个问题,以便使用Nutch抓取这些网站?有更好的解决方案吗?
答案 0 :(得分:1)
这是最简单的解决方案。问题是,对于大量网站没有一个简单的解决方案。在登录/等等过程中,Cookie存在/使用Javascript存在问题。通过Nutch的JIRA搜索,有很多讨论。
答案 1 :(得分:-1)
以下是你们正在寻找的答案:
和
https://issues.apache.org/jira/browse/NUTCH-827
这两个链接有完整的示例代码。如果您正确地遵循每个步骤,那么您将能够在Nutch中实现基于表单的身份验证。