应用错误收集

我计划以这样的方式调整Nutch 2.2.X，在初始抓取网站列表后，我每天都会启动抓取工具，并且只在这些网站上显示新页面的HTML或纯文本。网站数量：数百个。

请注意，我对更新，仅对新页面不感兴趣。此外，我只需要从日期开始新页面。我们假设它是“初始爬行”的日期。

阅读文档和搜索Web iI在其他地方找不到以下问题：

对于我的任务，我应该更好地使用Nutch的后端吗？我只需要一次页面文本，然后我再也不会回复它了。 MySQL似乎不是一个选项，因为gora不再支持它。我尝试使用HBase，但似乎我必须回滚到Nutch 2.1.x以使其正常工作。你有什么想法？我如何最小化磁盘空间和其他资源利用率？
我可以执行不使用索引引擎的任务吗？比如Solr？我不确定是否需要存储大型全文索引。 May Nutch＆gt; 2.2在没有Solr的情况下推出，它是否需要特定的选项来启动这种方式？教程没有清楚地解释这个问题：每个人都需要Solr，除了我。
如果我想将网站添加到抓取列表中，我该如何更好地执行它？我们假设我已经抓取了一个网站列表，并希望将网站添加到列表从现在开始监控它。因此，我需要抓取新网站跳过页面内容以将其添加到WebDB，然后像往常一样运行每日抓取。对于Nutch 1.x，可以执行单独的爬网然后合并它们。 Nutch 2.x看起来怎么样？
可以在没有自定义插件的情况下执行此任务，是否可以使用Nutch执行？可能我可能会编写一个自定义插件，可以检测到已经编入索引的页面，或者它是新的，我们需要将内容放到XML或数据库等。我应该编写插件，还是有办法用较少的血来解决任务？插件的算法看起来如何，如果没有它就无法生存？

P.S。有很多Nutch的问题/答案/教程，我老实地在网上搜索了2个星期，但没有找到上述问题的答案。