我使用Nutch 1.5进行爬网(使用了crawl命令),发布此readlinkdb转储不包含任何内容。此外,在索引过滤器中,inlinks为空。是什么导致inlinks为null?
答案 0 :(得分:3)
也许您只是为某个特定网站编制索引。在这种情况下,如果db.ignore.internal.links
中的nutch-default.xml
为真,则nutch将不会存储内部链接。在nutch-site.xml
中将其设置为false,您的linkdb将开始增长。
<property>
<name>db.ignore.internal.links</name>
<value>false</value>
<description>If true, when adding new links to a page, links from
the same host are ignored. This is an effective way to limit the
size of the link database, keeping only the highest quality
links.
</description>
</property>