Question

当我运行Apache Nutch 1.4爬虫时，我想存储一些额外的信息。我想存储每个URL的父级。

例如，我想抓取一个页面a.html，它有2个锚点链接到b.html和c.html所以当我抓取a.html时，我应该得到这样的结果： -

a.html null
b.html a.html
c.html a.html

我想存储这样的东西。我已经读过nutch如何工作并且也在日食中运行nutch。我还读取了fetcher.java并记录了它获取内容的位置。但是我知道Nutch在哪里获取给定页面的子URL时没有成功。我认为这一步骤在解析步骤之后进行。

Answer 1

我认为可以通过生成linkdb来获取信息。

链接数据库或linkdb ：这包含每个网址的已知链接列表，包括链接的源网址和锚文本。它维护一个反向链接映射，列出每个URL的传入链接。

bin/nutch invertlinks crawldb/linkdb -dir crawldb/segments

在解析阶段，nutch会从已爬网内容中生成外链，之后新发现的网址会在更新阶段存储到crawldb。新的网址将在下一轮/尼克尔爬行中获取。