应用错误收集

如何使用Nutch仅为某些网址编制索引？

时间：2010-07-15 07:53:07

标签： indexing nutch restrict url

我希望nutch能够抓取abc.com，但我只想索引car.abc.com。 car.abc.com链接可以在abc.com的任何级别。所以，基本上，我希望nutch能够正常抓取abc.com，但只能索引以car.abc.com开头的页面。例如car.abc.com/toyota ... car.abc.com/honda ...

我将regex-urlfilter.txt设置为仅包含car.abc.com并运行命令“generate crawl / crawldb crawl / segments”，但它只是说“Generator：0条记录被选中用于获取，退出... “。我猜car.abc.com链接只存在于几个层次。

怎么做？谢谢。

1 个答案:

答案 0 :(得分：1)

一种方法是使用mergedb命令的-filter开关。该命令将爬网数据库作为输入，并创建一个新的爬网数据库，其中一些URL已过滤。只需使用该过滤的爬网数据库进行索引。

唯一的缺点是我没有找到一种方法让mergedb命令使用另一个文件而不是regex-urlfilter.txt，这是生成器使用的文件。您将必须维护两个文件，如regex-urlfilter.txt：一个用于生成器 abc.com ，另一个用于mergedb命令，排除不像 car.abc的URL。 COM 。但由于两个命令都尝试加载相同的文件，因此在调用两个命令之一之前，必须将相应的文件重命名为regex-urlfilter.txt。

如果有人知道如何配置mergedb命令以使用其他文件，我会很高兴听到它！