如何将apache nutch 2.x连接到远程hbase集群

时间:2014-03-27 05:22:28

标签: hadoop hbase nutch apache-zookeeper

我有两台机器。一台机器在伪分布式模式下运行hbase-0.92.2,而另一台机器使用nutch2.x crawler。 如何以这样的方式配置这两台机器:一台机器使用hbase-0.92.2作为后端存储,另一台机器使用nutch-2.x作为爬虫。

请帮助,请提前。谢谢。

1 个答案:

答案 0 :(得分:2)

我终于做到了。我很容易做到。 我在这里分享我的经验。可能它可以帮助别人。

1-更改hbase-site.xml的配置文件以进行伪分布式模式。

2-最重要的事情:在hbase机器上,将/ etc / hosts中的localhost ip替换为你真正的网络ip

10.11.22.189 master localhost

hbase machine的ip = 10.11.22.189 (注意:如果你不能改变你的hbase机器的localhost ip,远程nutch crawler就无法连接到它)

4- copy / symlink hbase-site.xml到$ NUTCH_HOME / conf

5-启动您的抓取工具并看到它正常工作