标签: java nutch
是否可以定义要抓取的特定文件类型?
我正在尝试解决regex-urlfildtr.txt文件,但我只看到如何指定哪种类型不要抓取。
是否可以定义我只想抓取,比如.doc文件?
答案 0 :(得分:0)
在$ NUTCH_HOME / conf / regex-urlfilter.txt文件中,删除现有的正则表达式模式并将其粘贴:
+\.doc$ -.
这将只允许抓取.doc文件并过滤掉其他网址。