Hadoop:仅使用2台机器的缺点?

时间:2010-02-11 17:57:49

标签: hadoop analytics

我想对大量数据进行日志解析并收集分析信息。但是,所有数据都来自外部源,我只有2台机器可以存储 - 一台作为备份/复制。

我正在尝试使用Hadoop,Lucene ......来实现这一目标。但是,所有培训文档都提到Hadoop对分布式处理,多节点非常有用。我的设置不适合该架构。

使用只有2台机器的Hadoop是否有任何开销?如果Hadoop不是一个好选择还有其他选择吗?我们看了Splunk,我们喜欢它,但这对我们来说很贵。我们只想建立自己的。

1 个答案:

答案 0 :(得分:0)

Hadoop应该用于分布式批处理问题。

5-common-questions-about-hadoop

日志文件分析是Hadoop的一个常见用途,它是Facebook使用它的任务之一。

如果您有两台计算机,则根据定义,您具有多节点群集。如果需要,您可以在一台计算机上使用Hadoop,但是当您添加更多节点时,处理相同数据量所需的时间会减少。

你说你有大量的数据?这些是要理解的重要数字。就个人而言,当我认为数据方面很大时,我认为在100s TB +范围内。如果是这种情况,您可能需要两台以上的机器,特别是如果您想在HDFS上使用复制。

您想要收集的分析信息?您是否确定可以使用MapReduce方法回答这些问题?

如果您的硬件资源有限,您可以考虑在Amazons EC2上使用Hadoop。以下是一些可以帮助您入门的链接: