用nutch 1.8爬行不同的网站

时间:2014-06-18 09:07:56

标签: nutch

我正在使用nutch 1.8来抓取来自同一领域的不同模式的网站的信息。我正在为每个网站编写插件,但是当我开始使用nutch时,只有第一个插件与所有网站匹配,其他网站则不存在。

如果第一个插件与网站不匹配,请跳到下一个插件并检查它们等,直到找到合适的网站插件为止?

1 个答案:

答案 0 :(得分:0)

不清楚为什么要这样做。你在写一个HTMLParseFilter吗?如果当前文档的URL与给定模式不匹配,或者从种子中传递一些元数据(可用于确定要使用的HTMLParseFilter实现),则可以退出解析方法。

顺便说一下,您可以通过在Nutch用户列表上发帖来获得更相关的受众群体(请参阅http://nutch.apache.org/mailing_lists.html