Hortonworks:Hbase,Hive等用于哪种数据类型

时间:2018-06-24 00:41:00

标签: hive hbase hortonworks-data-platform

我想问问是否有人可以告诉我或将我引到一个互联网页面,该页面描述了将数据存储在apache hadoop集群中的所有可能性。

我想知道的是:哪种类型的数据应存储在哪个“系统”中。在数据类型下,例如:

  1. 实时数据(实时)
  2. 历史数据
  3. 从应用程序定期访问的数据
  4. ...

对于Hbase或Hive(“系统”)来说,完整的问题不会减少,而是针对Hdp下可用的所有内容。

我希望有人可以引导我找到我的答案。谢谢!

1 个答案:

答案 0 :(得分:0)

我可以给您一个概述,但是其余的事情您必须自己阅读。

让我们从要存储在HDFS中的数据类型开始:

  1. 动态数据(您将其表示为实时数据)。

那么,如何获取实时数据?可能吗答案是不。总是会有延迟的。但是,我们可以减少数据的停机时间和处理时间。为此,我们拥有HDF(Hortonworks数据流)。它可以处理运动中的数据。有许多服务提供实时数据流。您可以以Kafka,Nifi,Storm等为例。这些工具用于处理数据。您还需要以一种无需时间(〜2秒)即可获取数据的方式存储数据,因为我们使用的是HBase。 HBase将数据存储在柱状结构中。

  1. 静止数据(历史/已存储数据以备将来使用)

因此,要存储静态数据,不会出现此类问题。 HDP(Hortonworks数据平台)在那里为我们提供摄取,存储和处理数据的服务。甚至我们都可以将HDF服务集成到2.6版之前的HDP中,这也使得处理运动中的数据也更加容易。在这里,我们需要数据库来存储大量数据。但是,我们提供了HDFS(Hadoop分布式文件系统),可以帮助我们存储任何类型的数据。但是我们不只想存储我们的数据,我们想要在需要时立即获取它。那么,我们打算如何做呢?通过以结构化形式存储我们的数据。为此,我们提供了Hive和HBase。要存储如此大量的数据(以TB为单位),我们需要运行繁重的流程,在这些流程中可以使用MapReduce,YARN,Spark,Kubernetes,Spark。

这是在Hadoop中存储和处理数据的基本思想。

您可以随时从互联网上阅读它们。