从nutch获取链接

时间:2011-09-15 02:13:37

标签: web-crawler nutch

我正在使用nutch 1.3来抓取网站。我想获取一个已抓取的网址列表,以及来自网页的网址。

我获取了使用readdb命令抓取的网址列表。

bin/nutch readdb crawl/crawldb -dump file

有没有办法通过阅读crawldb或linkdb来查找页面上的网址?

org.apache.nutch.parse.html.HtmlParser我看到了outlinks数组,我想知道是否有一种从命令行访问它的快捷方法。

2 个答案:

答案 0 :(得分:8)

从命令行,您可以使用带有-dump或-get选项的readseg来查看外链。例如,

bin/nutch readseg -dump crawl/segments/20110919084424/ outputdir2 -nocontent -nofetch - nogenerate -noparse -noparsetext

less outputdir2/dump

答案 1 :(得分:2)

您可以使用 readlinkdb 命令轻松完成此操作。它为您提供了与URL之间的所有链接和链接。

bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)

linkdb:这是我们希望阅读的linkdb目录并从中获取信息。

out_dir:此参数将整个linkdb转储到我们希望指定的任何out_dir中的文本文件。

url:-url争论为我们提供了有关特定网址的信息。这将写入System.out。

e.g. 

bin/nutch readlinkdb crawl/linkdb -dump myoutput/out1

有关更多信息,请参阅 http://wiki.apache.org/nutch/bin/nutch%20readlinkdb