在LinkedIn上使用Nutch抓取已发布的内容

时间:2013-11-25 10:37:55

标签: web-crawler

我是抓狂的新手,如果我们可以使用Apache Nutch在LinkedIn上抓取已发布的内容(非用户特定数据),请告诉我们吗?

我已经设置了Nutch和Solr,我成功地抓取了网站但是当我尝试抓取LinkedIn时,我收到消息“没有更多的网址可以获取”。这一定是因为LinkedIn拒绝抓取我的网页。有没有其他方法可以这样做?

1 个答案:

答案 0 :(得分:0)

Nutch未在其Robots.txt文件中列入白名单,默认为

User-agent: *
Disallow: /

这意味着,没有抓取。

他们的robots.txt文件中有评论

  

注意:如果您想抓取LinkedIn,   请发送电子邮件至whitelistcrawl@linkedin.com申请   白名单。

但我不认为他们会同意将Nutch列入白名单。 你必须

  1. 在Nutch上设置不同的UA
  2. 向他们发送电子邮件并解释您为何要抓取他们并将您的UA列入白名单。