apache - Nutch [1.x] - webgraph和readlinkdb命令有什么区别？

时间：2017-04-23 00:22:38

标签： apache web-crawler nutch

我很难理解Apache Nutch 1.x的工作，而且文档没有多大帮助。

基本上，我想从已爬网数据生成链接和外链。

来自Nutch wiki，

ReadLinkDB：

Readlinkdb是org.apache.nutch.crawl.LinkDbReader的别名

这个读者类使我们能够从中获取各种信息   在linkdb中。我们可以提供的两种信息是

整个linkdb的转储，然后写入文本文件   轻松查看。与特定URL相关的特定信息。

WebGraph是org.apache.nutch.scoring.webgraph.WebGraph的别名

此类创建三个数据库，一个用于链接，一个用于外链，   以及一个节点数据库，其中包含URL的输入和输出链接的数量   以及网址的当前分数。

运行这两个命令后，生成的输出文件大小不同。 WebGraph命令正在读取segments目录以生成链接和链接，而ReadLinkDB命令则读取linkDB。

你能帮我理解其中的区别吗？

谢谢。

答案 0 :(得分：1)

LinkDb和WebGraph都是第一个数据结构

LinkDb为每个页面包含链接和锚文本，它是一个地图⟨URL => [⟨from_URL, anchor_text⟩, ...]⟩。它支持anchor texts的索引。
WebGraph更复杂，由3个子结构构成：InlinkDb，OutlinkDb，NodeDb。它包含的信息比LinkDb更多，还包括链接时间戳和类型，链接计数器和分数。它的目的是逐步构建超链接图并在其上运行链接排名算法。