Nutch 2.1网址注入需要永远

时间:2014-04-14 00:07:01

标签: apache nutch

我试图按照tutorial在Ubuntu 12.04上部署nutch 2.1。一切顺利 直到我尝试将url注入数据库。当我输入($ bin / nutch注入网址)并按 输入我

    InjectorJob: starting
    InjectorJob: urlDir: urls

并在那里(几个小时)直到我决定取消执行。 urls是一个目录 包含带url的文件。我按照建议here在nutch-site.xml中添加了代理和端口详细信息,但它没有解决。我尝试了apache nutch 2.2.1并且问题仍在继续。

如果你知道如何解决这个问题,请帮助我!

提前致谢。

1 个答案:

答案 0 :(得分:3)

Ubuntu默认主机中的环回IP地址为127.0.1.1。 HBase(根据this page)要求您的环回IP地址为127.0.0.1。

默认情况下,Ubuntu /etc/hosts文件包含(myComputerName是您的计算机名称):

127.0.0.1   localhost
127.0.1.1   myComputerName

使用sudo gedit /etc/hosts更新您的主机文件,如下所示:

127.0.0.1   localhost
127.0.0.1   myComputerName

重启Ubuntu。 Nutch应该不再有麻烦注入HBase。