我想使用nutch创建一个聚焦爬虫。有没有办法修改nutch以便更快地爬行?我们可以使用nutch中的元数据来训练一个分类器,它可以减少nutch为给定主题抓取的URL数量吗?
答案 0 :(得分:1)
如果提取的网址可以通过正则表达式区分,则可以通过添加特定的正则表达式过滤器来使用当前的Nutch进行区分。但是,如果要根据与页面相关的一些元数据功能对URL进行分类,则必须在解析步骤中实现自定义的HTMLParseFilter以过滤Outlink []。 有关如何为Nutch开发插件的更多信息,请访问以下链接: