使用Nutch,我想抓取所有在其网址中都有ipod的http://www.amazon.com/个网页。
例如,如果我在搜索框中搜索ipod,我会
http://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=ipod&x=0&y=0
此网页显示了一堆ipod链接。我想抓取与ipod相关的每个链接并获取它。
搜索结果下显示的第一个链接是
我应该在下面使用吗?
+^http://([a-z0-9\-A-Z]*\.)*www.amazon.com/*ipod*
答案 0 :(得分:0)
如果您要抓取此特定网址,则应在crawl-urlfilter.txt中包含以下行
-.*
此命令将排除所有其他网址!