Hadoop是否仅推荐用于分布式环境?

时间:2012-07-19 03:29:42

标签: database hadoop

我有一个数据库,其大小可以在一个月内达到1TB。如果我直接进行查询,则需要很长时间。所以我想在数据库之上使用Hadoop - 大部分时间我的查询都涉及搜索整个数据库。我的数据库实例将是1或2,而不是更多。过了一会儿,我们清除了数据库。      那么我们可以使用hadoop框架,因为它有助于处理大量数据吗?

2 个答案:

答案 0 :(得分:0)

Hadoop不是“您查询的内容”,但您可以使用它来处理大量数据并创建搜索索引,然后将其加载到可以查询的系统中。

如果您想要大数据商店,也可以查看HBase。除了HBase之外,还有许多其他键值或非关系(NoSQL)存储可以很好地处理大数据。

正确答案取决于您正在运行的查询类型。您是否始终运行特定查询?如果是这样,那么键值存储很有效;只需选择正确的钥匙。如果您的查询需要按照您的说法搜索整个数据库,并且您每小时或每两小时只进行一次查询,那么原则上,您可以在Hive中编写一个简单的“查询”来读取来自您的HDFS商店。

请注意,当您拥有大量数据并访问体面大小的群集时,在Hive中查询只会节省您与RDBMS或简单grep的时间。如果你只有一台机器,这是一个非解决方案。

答案 1 :(得分:0)

Hadoop在分布式系统上运行得更好。此外,1TB不是大数据。为此你的关系数据库将完成这项工作。 当您必须处理100 TB或更多数据时,hadoop的真正威力来自于关系数据库失败的地方。

如果查看Hbase,它速度很快,但它不能替代你的MySQL或Oracle ..