Nutch [1.x] - webgraph和readlinkdb命令有什么区别?

时间:2017-04-23 00:22:38

标签: apache web-crawler nutch

我很难理解Apache Nutch 1.x的工作,而且文档没有多大帮助。

基本上,我想从已爬网数据生成链接和外链。

来自Nutch wiki,

ReadLinkDB:​​

  

Readlinkdb是org.apache.nutch.crawl.LinkDbReader的别名

     

这个读者类使我们能够从中获取各种信息   在linkdb中。我们可以提供的两种信息是

     

整个linkdb的转储,然后写入文本文件   轻松查看。与特定URL相关的特定信息。

WebGraph:

  

WebGraph是org.apache.nutch.scoring.webgraph.WebGraph的别名

     

此类创建三个数据库,一个用于链接,一个用于外链,   以及一个节点数据库,其中包含URL的输入和输出链接的数量   以及网址的当前分数。

运行这两个命令后,生成的输出文件大小不同。 WebGraph命令正在读取segments目录以生成链接和链接,而ReadLinkDB命令则读取linkDB。

你能帮我理解其中的区别吗?

谢谢。

1 个答案:

答案 0 :(得分:1)

LinkDb和WebGraph都是第一个数据结构

  • LinkDb为每个页面包含链接和锚文本,它是一个地图⟨URL => [⟨from_URL, anchor_text⟩, ...]⟩。它支持anchor texts的索引。
  • WebGraph更复杂,由3个子结构构成:InlinkDb,OutlinkDb,NodeDb。它包含的信息比LinkDb更多,还包括链接时间戳和类型,链接计数器和分数。它的目的是逐步构建超链接图并在其上运行链接排名算法。