Nutch正则表达式爬行

时间:2013-05-23 10:40:37

标签: java web-crawler nutch

我正在使用Apache Nutch来抓取网页。当我搜索特定名称时,我想抓取网页     如果我搜索账单门,我想获得该搜索结果的结果链接。我有网址喜欢

www.mysite.com/search?name=bill+gates

但在抓取时,它不再显示要抓取的网址。实际上它无法获取任何结果。

是否有抓取该网页的选项?我已经在regex-urlfilter.txt中添加了以接受所有内容。 我将如何抓取链接?提前谢谢。

1 个答案:

答案 0 :(得分:1)

在我的记忆中,nutch有一个额外的设置来切断网址参数,比如?q = bill + gates。 我认为这个设置位于automaton-urlfilter.txt:

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

所以你必须改变这一行。

希望我能帮到你