nutch - 如何抓取特定的文件类型?

时间:2012-01-23 12:51:15

标签: java nutch

是否可以定义要抓取的特定文件类型?

我正在尝试解决regex-urlfildtr.txt文件,但我只看到如何指定哪种类型不要抓取。

是否可以定义我只想抓取,比如.doc文件?

1 个答案:

答案 0 :(得分:0)

在$ NUTCH_HOME / conf / regex-urlfilter.txt文件中,删除现有的正则表达式模式并将其粘贴:

+\.doc$ 
-.

这将只允许抓取.doc文件并过滤掉其他网址。