用于nutch爬虫的Hbase Standalone与伪分布式模式

时间:2015-07-20 12:04:41

标签: hadoop hbase hdfs nutch

我正在为三个较小的网站运行Nutch抓取工具。每天我都会在一台计算机上抓取< 500k网址。根据客户的意愿,hadoop集群不会有2台以上的机器集群。只有一个服务器实例。

据我所知,建议不要将Standalone和Pseudo分布式模式用于生产,但是......

Q1:这些模式中的哪一个是“小恶魔”#39; - 编写Nutch,因此可以在单台机器上运行。这种情况中的哪一种适用于这种情况?

Q2:目前我们在独立模式下运行Hbase,并且有时hbase崩溃而没有任何日志。 HMaster停止并且无法在不修复元和修复不一致的情况下重新启动(连接被拒绝)。这种错误可能是由独立模式引起的吗?

注1:我们不需要hadoop数据复制,因为网址数量很少。

注2:我们不需要hadoop作业的并行性,因为网址数量很少

由于注1,2,我认为普通的文件系统应该足够了,并且hdfs是不必要的。我是对的吗?

0 个答案:

没有答案