更新Nutch以获取所提取的每个URL的父级

时间:2012-05-22 09:51:39

标签: java nutch

当我运行Apache Nutch 1.4爬虫时,我想存储一些额外的信息。我想存储每个URL的父级。

例如,我想抓取一个页面a.html,它有2个锚点链接到b.html和c.html所以当我抓取a.html时,我应该得到这样的结果: -

a.html null
b.html a.html
c.html a.html

我想存储这样的东西。 我已经读过nutch如何工作并且也在日食中运行nutch。我还读取了fetcher.java并记录了它获取内容的位置。但是我知道Nutch在哪里获取给定页面的子URL时没有成功。我认为这一步骤在解析步骤之后进行。

1 个答案:

答案 0 :(得分:2)

我认为可以通过生成linkdb来获取信息。

链接数据库或linkdb :这包含每个网址的已知链接列表,包括链接的源网址和锚文本。它维护一个反向链接映射,列出每个URL的传入链接。

bin/nutch invertlinks crawldb/linkdb -dir crawldb/segments

在解析阶段,nutch会从已爬网内容中生成外链,之后新发现的网址会在更新阶段存储到crawldb。新的网址将在下一轮/尼克尔爬行中获取。