Question

我目前正在使用Nutch 2.2.1和HBase 0.90.4。我期待种子中大约10个URL的大约300K网址。使用Nutch 1.6时，我已经生成了这么多。由于我想操纵数据，我更喜欢去Nutch 2.2.1 + HBase路线。但是我得到了各种奇怪的错误，爬行似乎没有进展。

各种错误，例如：

我正在使用一体化抓取命令 - bin/crawl urls 1 http://localhost:8983/solr/ 10

<crawl> <seed-dir> <crawl-id> <solr-url> <number of rounds>

请说明我哪里出错了。我按照Nutch网站推荐的installed安装了Nutch 2.2.1 Quick start guide和HBase（独立）。我不确定从快速启动指南链接开始单独设置HBase 0.90.4是否足以实现300K抓取的网址。

编辑＃1：RSS解析错误 - 日志信息

错误tika.TikaParser - 解析http://www.###.###.##/###/abc.xml时出错 org.apache.tika.exception.TikaException：RSS解析错误