Nutch(2.2.1)注入网址挂起

时间:2014-06-09 14:04:50

标签: solr hbase nutch ubuntu-14.04

我正在运行Ubuntu 14.04,我很想得到一个基本的Nutch Web Crawl无法运行。在this教程之后,我设置了以下构建块:

  • Ubuntu 14.04
  • HBase 0.90.4
  • Nutch 2.2.1
  • Solr 4.3.1

我确认HBase和Solr都在运行,我填充了urls/seed.txt文件。然后当我打电话时;

bin/nutch inject urls

我看到了以下输出,然后看起来Nutch刚刚挂起。

InjectorJob: starting at 2014-06-09 23:38:49
InjectorJob: Injecting urlDir: urls/seed.txt

This stackoverflow问题似乎与我的相似,但我并不在代理之后,所以答案不适用。

非常感谢任何解决此问题的帮助。

1 个答案:

答案 0 :(得分:3)

Ubuntu默认主机中的环回IP地址为127.0.1.1。 HBase(根据this page)要求您的环回IP地址为127.0.0.1。

默认情况下,Ubuntu /etc/hosts文件包含(myComputerName是您的计算机名称):

127.0.0.1   localhost
127.0.1.1   myComputerName

使用sudo gedit /etc/hosts更新您的主机文件,如下所示:

127.0.0.1   localhost
127.0.0.1   myComputerName

重启Ubuntu。 Nutch应该不再有麻烦注入HBase。