在apache nutch中只创建linkdb

时间:2013-12-28 02:11:27

标签: web-crawler nutch

我正在使用apache nutch 1.7版来抓取互联网。一切正常。但是,我对链接和外链感兴趣,因为我所做的就是链接分析。所以我对内容,解析文本等感兴趣。我怎样才能指示nutch只构建linkdb?但不是其他人(crawldb或segmentdb)因为我对html内容不感兴趣。是否有选项可以在爬网时自动清除crawldb和segmentdb)。我正在互联网上大规模爬行,需要非常节省空间。

1 个答案:

答案 0 :(得分:1)

限制抓取内容的详细信息在http://facstaff.unca.edu/mcmcclur/class/Seminar/Pagerank/nutch/nutch.html

中给出

您可以在nutch站点配置

中使用以下配置属性
<property>
  <name>fetcher.store.content</name>
  <value>false</value>
  <description>If true, fetcher will store content.</description>
</property>

请注意,如果您在初始抓取中设置此内容,则不会生成任何内容,因此没有链接和提取程序会失败一半,表示它没有分段内容。