我正在使用Nutch抓取网站并将其与Solr集成。 我正在抓取网站上的所有网址,但只想索引其中几个网址。
在 regex_urlfilter.txt 中添加网址格式会过滤来自抓取的网址。但是,这并不是我想要的。我想抓取所有网站,但只索引一些网站。
在索引时而不是在抓取时是否有类似regex-urlfilter.txt的内容?
答案 0 :(得分:0)
一步一步地做。
请不要在重复数据删除步骤之前提供过滤器。一旦您的网址已更新为crawlDb并准备好编制索引,请将过滤器提供给regex-urlfilter.txt。
执行 bin / nutch index .... -filter