Nutch:数据读取和添加元数据

时间:2012-05-27 06:09:09

标签: solr lucene web-crawler semantic-web nutch

我最近开始寻找apache nutch。我可以设置并能够使用nutch抓取我感兴趣的网页。我不太了解如何读取这些数据。我基本上想要将每个页面的数据与一些元数据(现在的一些随机数据)相关联,并将它们存储在本地,稍后将用于搜索(语义)。我是否需要使用solr或lucene?我是所有这些的新手。据我所知,Nutch习惯于抓取网页。它是否可以执行一些其他功能,例如向已爬网数据添加元数据?

1 个答案:

答案 0 :(得分:3)

有用的命令。

开始抓取

bin/nutch crawl urls -dir crawl -depth 3 -topN 5

获取已抓取网址的统计信息

bin/nutch readdb crawl/crawldb -stats

读取片段(从网页获取所有数据)

bin/nutch readseg -dump crawl/segments/* segmentAllContent

读取片段(仅获取文本字段)

bin/nutch readseg -dump crawl/segments/* segmentTextContent -nocontent -nofetch -nogenerate -     noparse -noparsedata

获取每个网址的所有已知链接列表,包括链接的源网址和锚文本。

bin/nutch readlinkdb crawl/linkdb/ -dump linkContent

抓取所有网址。还提供其他信息,如是获取,获取时间,修改时间等。

bin/nutch readdb crawl/crawldb/ -dump crawlContent

第二部分。即添加新字段我计划使用index-extra插件或编写自定义插件。

参见:

thisthis