我希望nutch能够抓取abc.com,但我只想索引car.abc.com。 car.abc.com链接可以在abc.com的任何级别。所以,基本上,我希望nutch能够正常抓取abc.com,但只能索引以car.abc.com开头的页面。例如car.abc.com/toyota ... car.abc.com/honda ...
我将regex-urlfilter.txt设置为仅包含car.abc.com并运行命令“generate crawl / crawldb crawl / segments”,但它只是说“Generator:0条记录被选中用于获取,退出... “。我猜car.abc.com链接只存在于几个层次。
怎么做? 谢谢。
答案 0 :(得分:1)
一种方法是使用mergedb命令的-filter开关。该命令将爬网数据库作为输入,并创建一个新的爬网数据库,其中一些URL已过滤。只需使用该过滤的爬网数据库进行索引。
唯一的缺点是我没有找到一种方法让mergedb命令使用另一个文件而不是regex-urlfilter.txt,这是生成器使用的文件。您将必须维护两个文件,如regex-urlfilter.txt:一个用于生成器 abc.com ,另一个用于mergedb命令,排除不像 car.abc的URL。 COM 。但由于两个命令都尝试加载相同的文件,因此在调用两个命令之一之前,必须将相应的文件重命名为regex-urlfilter.txt。
如果有人知道如何配置mergedb命令以使用其他文件,我会很高兴听到它!