Question

我正在使用nutch 1.3来抓取网站。我想获取一个已抓取的网址列表，以及来自网页的网址。

我获取了使用readdb命令抓取的网址列表。

bin/nutch readdb crawl/crawldb -dump file

有没有办法通过阅读crawldb或linkdb来查找页面上的网址？

在org.apache.nutch.parse.html.HtmlParser我看到了outlinks数组，我想知道是否有一种从命令行访问它的快捷方法。

Answer 1

从命令行，您可以使用带有-dump或-get选项的readseg来查看外链。例如，

bin/nutch readseg -dump crawl/segments/20110919084424/ outputdir2 -nocontent -nofetch - nogenerate -noparse -noparsetext

less outputdir2/dump

Answer 2

您可以使用 readlinkdb 命令轻松完成此操作。它为您提供了与URL之间的所有链接和链接。

bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)

linkdb：这是我们希望阅读的linkdb目录并从中获取信息。

out_dir：此参数将整个linkdb转储到我们希望指定的任何out_dir中的文本文件。

url：-url争论为我们提供了有关特定网址的信息。这将写入System.out。

e.g. 

bin/nutch readlinkdb crawl/linkdb -dump myoutput/out1