Nutch和HBase用于生产

时间:2013-10-03 21:02:49

标签: hadoop hbase nutch gora

我目前正在使用Nutch 2.2.1和HBase 0.90.4。我期待种子中大约10个URL的大约300K网址。使用Nutch 1.6时,我已经生成了这么多。由于我想操纵数据,我更喜欢去Nutch 2.2.1 + HBase路线。但是我得到了各种奇怪的错误,爬行似乎没有进展。

各种错误,例如:

  1. zookeeper.ClientCnxn - 服务器空的会话,意外错误,关闭套接字连接并尝试重新连接。 - 我更频繁地得到这个

  2. bin / crawl:第164行:已杀死 - 我从获取步骤中收到此错误,并且抓取工作突然被杀死。

  3. RSS解析错误

  4. 我正在使用一体化抓取命令 - bin/crawl urls 1 http://localhost:8983/solr/ 10

    <crawl> <seed-dir> <crawl-id> <solr-url> <number of rounds>
    

    请说明我哪里出错了。我按照Nutch网站推荐的installed安装了Nutch 2.2.1 Quick start guide和HBase(独立)。我不确定从快速启动指南链接开始单独设置HBase 0.90.4是否足以实现300K抓取的网址。


    编辑#1:RSS解析错误 - 日志信息

    错误tika.TikaParser - 解析http://www.###.###.##/###/abc.xml时出错 org.apache.tika.exception.TikaException:RSS解析错误

0 个答案:

没有答案