Apache Nutch:仅抓取新页面进行语义分析

时间:2014-06-04 10:08:00

标签: nutch web-crawler

我计划以这样的方式调整Nutch 2.2.X,在初始抓取网站列表后,我每天都会启动抓取工具,并且只在这些网站上显示新页面的HTML或纯文本。网站数量:数百个。

请注意,我对更新,仅对新页面不感兴趣。此外,我只需要从日期开始新页面。我们假设它是“初始爬行”的日期。

阅读文档和搜索Web iI在其他地方找不到以下问题:

  1. 对于我的任务,我应该更好地使用Nutch的后端吗?我只需要一次页面文本,然后我再也不会回复它了。 MySQL似乎不是一个选项,因为gora不再支持它。我尝试使用HBase,但似乎我必须回滚到Nutch 2.1.x以使其正常工作。你有什么想法?我如何最小化磁盘空间和其他资源利用率?

  2. 我可以执行不使用索引引擎的任务吗?比如Solr?我不确定是否需要存储大型全文索引。 May Nutch> 2.2在没有Solr的情况下推出,它是否需要特定的选项来启动这种方式?教程没有清楚地解释这个问题:每个人都需要Solr,除了我。

  3. 如果我想将网站添加到抓取列表中,我该如何更好地执行它?我们假设我已经抓取了一个网站列表,并希望将网站添加到列表从现在开始监控它。因此,我需要抓取新网站跳过页面内容以将其添加到WebDB,然后像往常一样运行每日抓取。对于Nutch 1.x,可以执行单独的爬网然后合并它们。 Nutch 2.x看起来怎么样?

  4. 可以在没有自定义插件的情况下执行此任务,是否可以使用Nutch执行?可能我可能会编写一个自定义插件,可以检测到已经编入索引的页面,或者它是新的,我们需要将内容放到XML或数据库等。我应该编写插件,还是有办法用较少的血来解决任务?插件的算法看起来如何,如果没有它就无法生存?

  5. P.S。有很多Nutch的问题/答案/教程,我老实地在网上搜索了2个星期,但没有找到上述问题的答案。

1 个答案:

答案 0 :(得分:0)

我也没有使用solr。我刚检查了这个文档:https://today.java.net/pub/a/today/2006/01/10/introduction-to-nutch-1.html

似乎有一些命令提示可以显示使用WebDB获取的数据。我是Nutch的新手,但我只是按照这个文档。看看吧。