应用错误收集

是否可以让Nutch只爬下某个文件路径？

时间：2013-09-11 01:15:51

标签： apache web-crawler nutch

我正在尝试使用Apache nutch只抓取某个文件路径。例如，如果我的网址是：

www.foo.com/shoes /

我想继续抓取网址：www.foo.com/shoes/nike和www.foo.com/shoes/addidas以及www.foo.com/shoes/addidas/soccer但不抓取其他目录，如： www.foo.com/clothes或www.foo.com/watches。无论如何，荷兰人能做到吗？

1 个答案:

答案 0 :(得分：0)

你唯一要做的就是写一个与你的模式匹配的正则表达式，比如

+。www.foo.com/shoes /

并使用

跳过其他所有内容

- *

在crawl-urlfilter.txt！

的末尾

荷兰爬行路径
nutch - 如何抓取特定的文件类型？
如何在Nutch中仅抓取HTML？
如何配置Nutch只抓取搜索列表中的URL？（不需要爬行）
是否可以让Nutch只爬下某个文件路径？
Nutch：Crawl Broken Links＆amp;在Solr中索引它
是否有可能让Nutch爬行远程Windows机器forlders？
如何让Nutch爬虫只抓取特定的URL？
在Nutch中可以有不同的获取间隔吗？
Nutch 1.2爬行抛出系统找不到指定的路径

我写了这段代码，但我无法理解我的错误
我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？
是否有可能使 loadstring 不可能等于打印？卢阿
java中的random.expovariate()
Appscript 通过会议在 Google 日历中发送电子邮件和创建活动
为什么我的 Onclick 箭头功能在 React 中不起作用？
在此代码中是否有使用“this”的替代方法？
在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化
每千个数字得到
更新了城市边界 KML 文件的来源？