我是抓狂的新手,如果我们可以使用Apache Nutch在LinkedIn上抓取已发布的内容(非用户特定数据),请告诉我们吗?
我已经设置了Nutch和Solr,我成功地抓取了网站但是当我尝试抓取LinkedIn时,我收到消息“没有更多的网址可以获取”。这一定是因为LinkedIn拒绝抓取我的网页。有没有其他方法可以这样做?
答案 0 :(得分:0)
Nutch未在其Robots.txt文件中列入白名单,默认为
User-agent: *
Disallow: /
这意味着,没有抓取。
他们的robots.txt文件中有评论
注意:如果您想抓取LinkedIn, 请发送电子邮件至whitelistcrawl@linkedin.com申请 白名单。
但我不认为他们会同意将Nutch列入白名单。 你必须