包含#的Nutch跳过网址

时间:2015-02-14 21:23:48

标签: regex nutch

我正在学习Nutch。我已经设置了nutch并开始抓取网站。但我无法弄清楚的一件事是如何限制包含#的url,因为这会导致多次重复#。 我检查了regex-urlfilter.txt

# skip URLs containing certain characters as probable queries, etc.
-[*!@] 

如果我在概念上将#添加到此行,这应该可行,但在添加#It不起作用之后。是否因为#用于评论行?如果是这样,如何解决它。

1 个答案:

答案 0 :(得分:3)

Escape #使用反斜杠。