nutch:用关键词搜索

时间:2011-10-29 04:47:33

标签: search keyword nutch

使用Nutch,我想抓取所有在其网址中都有ipod的http://www.amazon.com/个网页。

例如,如果我在搜索框中搜索ipod,我会

http://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=ipod&x=0&y=0

此网页显示了一堆ipod链接。我想抓取与ipod相关的每个链接并获取它。

搜索结果下显示的第一个链接是

http://www.amazon.com/Apple-iPod-touch-8GB-Generation/dp/B001FA1O0O/ref=sr_1_1?ie=UTF8&qid=1319863311&sr=8-

我应该在下面使用吗?

+^http://([a-z0-9\-A-Z]*\.)*www.amazon.com/*ipod*

1 个答案:

答案 0 :(得分:0)

如果您要抓取此特定网址,则应在crawl-urlfilter.txt中包含以下行

-.*

此命令将排除所有其他网址!