我很难理解Apache Nutch 1.x的工作,而且文档没有多大帮助。
基本上,我想从已爬网数据生成链接和外链。
来自Nutch wiki,
Readlinkdb是org.apache.nutch.crawl.LinkDbReader的别名
这个读者类使我们能够从中获取各种信息 在linkdb中。我们可以提供的两种信息是
整个linkdb的转储,然后写入文本文件 轻松查看。与特定URL相关的特定信息。
WebGraph是org.apache.nutch.scoring.webgraph.WebGraph的别名
此类创建三个数据库,一个用于链接,一个用于外链, 以及一个节点数据库,其中包含URL的输入和输出链接的数量 以及网址的当前分数。
运行这两个命令后,生成的输出文件大小不同。 WebGraph命令正在读取segments目录以生成链接和链接,而ReadLinkDB命令则读取linkDB。
你能帮我理解其中的区别吗?
谢谢。
答案 0 :(得分:1)
LinkDb和WebGraph都是第一个数据结构
⟨URL => [⟨from_URL, anchor_text⟩, ...]⟩
。它支持anchor texts的索引。