我正在使用apache nutch 1.7版来抓取互联网。一切正常。但是,我对链接和外链感兴趣,因为我所做的就是链接分析。所以我不对内容,解析文本等感兴趣。我怎样才能指示nutch只构建linkdb?但不是其他人(crawldb或segmentdb)因为我对html内容不感兴趣。是否有选项可以在爬网时自动清除crawldb和segmentdb)。我正在互联网上大规模爬行,需要非常节省空间。
答案 0 :(得分:1)
限制抓取内容的详细信息在http://facstaff.unca.edu/mcmcclur/class/Seminar/Pagerank/nutch/nutch.html
中给出您可以在nutch站点配置
中使用以下配置属性<property>
<name>fetcher.store.content</name>
<value>false</value>
<description>If true, fetcher will store content.</description>
</property>
请注意,如果您在初始抓取中设置此内容,则不会生成任何内容,因此没有链接和提取程序会失败一半,表示它没有分段内容。