Question

我是抓狂的新手，如果我们可以使用Apache Nutch在LinkedIn上抓取已发布的内容（非用户特定数据），请告诉我们吗？

我已经设置了Nutch和Solr，我成功地抓取了网站但是当我尝试抓取LinkedIn时，我收到消息“没有更多的网址可以获取”。这一定是因为LinkedIn拒绝抓取我的网页。有没有其他方法可以这样做？

Answer 1

Nutch未在其Robots.txt文件中列入白名单，默认为

User-agent: *
Disallow: /

这意味着，没有抓取。

他们的robots.txt文件中有评论

注意：如果您想抓取LinkedIn，请发送电子邮件至whitelistcrawl@linkedin.com申请白名单。

但我不认为他们会同意将Nutch列入白名单。你必须