database - Hadoop是否仅推荐用于分布式环境？

时间：2012-07-19 03:29:42

标签： database hadoop

我有一个数据库，其大小可以在一个月内达到1TB。如果我直接进行查询，则需要很长时间。所以我想在数据库之上使用Hadoop - 大部分时间我的查询都涉及搜索整个数据库。我的数据库实例将是1或2，而不是更多。过了一会儿，我们清除了数据库。那么我们可以使用hadoop框架，因为它有助于处理大量数据吗？

答案 0 :(得分：0)

Hadoop不是“您查询的内容”，但您可以使用它来处理大量数据并创建搜索索引，然后将其加载到可以查询的系统中。

如果您想要大数据商店，也可以查看HBase。除了HBase之外，还有许多其他键值或非关系（NoSQL）存储可以很好地处理大数据。

正确答案取决于您正在运行的查询类型。您是否始终运行特定查询？如果是这样，那么键值存储很有效;只需选择正确的钥匙。如果您的查询需要按照您的说法搜索整个数据库，并且您每小时或每两小时只进行一次查询，那么原则上，您可以在Hive中编写一个简单的“查询”来读取来自您的HDFS商店。

请注意，当您拥有大量数据并访问体面大小的群集时，在Hive中查询只会节省您与RDBMS或简单grep的时间。如果你只有一台机器，这是一个非解决方案。

答案 1 :(得分：0)

Hadoop在分布式系统上运行得更好。此外，1TB不是大数据。为此你的关系数据库将完成这项工作。当您必须处理100 TB或更多数据时，hadoop的真正威力来自于关系数据库失败的地方。

如果查看Hbase，它速度很快，但它不能替代你的MySQL或Oracle ..