我正在使用nutch 1.3来抓取网站。我想获取一个已抓取的网址列表,以及来自网页的网址。
我获取了使用readdb命令抓取的网址列表。
bin/nutch readdb crawl/crawldb -dump file
有没有办法通过阅读crawldb或linkdb来查找页面上的网址?
在org.apache.nutch.parse.html.HtmlParser
我看到了outlinks数组,我想知道是否有一种从命令行访问它的快捷方法。
答案 0 :(得分:8)
从命令行,您可以使用带有-dump或-get选项的readseg来查看外链。例如,
bin/nutch readseg -dump crawl/segments/20110919084424/ outputdir2 -nocontent -nofetch - nogenerate -noparse -noparsetext
less outputdir2/dump
答案 1 :(得分:2)
您可以使用 readlinkdb 命令轻松完成此操作。它为您提供了与URL之间的所有链接和链接。
bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)
linkdb:这是我们希望阅读的linkdb目录并从中获取信息。
out_dir:此参数将整个linkdb转储到我们希望指定的任何out_dir中的文本文件。
url:-url争论为我们提供了有关特定网址的信息。这将写入System.out。
e.g.
bin/nutch readlinkdb crawl/linkdb -dump myoutput/out1
有关更多信息,请参阅 http://wiki.apache.org/nutch/bin/nutch%20readlinkdb