Hadoop是否适合在50GB数据集中提供100字节的记录?

时间:2012-06-15 15:19:51

标签: performance hadoop

我们对Hadoop是否适用于不需要运行应用程序但需要非常快速读取和写入少量数据的简单任务有疑问。

要求是能够以每秒30的速率写入大约100-200字节长的带有几个索引的消息,同时能够以大约10个每秒的速率读取(通过这两个索引搜索)秒。读取查询必须非常快 - 每个查询最多100-200毫秒,并返回少量匹配记录。

预计总数据量将达到50-100 gb,并通过删除旧记录(例如删除超过14天的记录的日常任务)维持此速率

正如您所看到的那样,总数据量并不是那么大,但我们担心Hadoop的搜索速度可能会慢于我们的需求。

Hadoop是否是解决方案?

由于 NIK

2 个答案:

答案 0 :(得分:2)

仅仅Hadoop在提供许多小段数据方面非常糟糕。但是,HBase是一个索引表数据库类系统,意味着在Hadoop之上运行。它非常适合提供小型索引文件。我会研究这个解决方案。

要注意的另一个问题是将数据导入HDFS或HBase并非易事。它可以减慢你的群集速度,所以如果你选择Hadoop,你还必须解决如何将这75GB内容转换成HDFS,以便Hadoop可以触摸它们。

答案 1 :(得分:0)

Sam指出HBase是可以满足您需求的Hadoop堆栈解决方案。但是,如果这些是您对数据的唯一要求,我不会使用Hadoop。

您可以使用其他NoSQL解决方案,如MongoDB或CouchDB,甚至MySQL或Postgres