应用错误收集

我可以给您一个概述，但是其余的事情您必须自己阅读。

让我们从要存储在HDFS中的数据类型开始：

动态数据（您将其表示为实时数据）。

那么，如何获取实时数据？可能吗答案是不。总是会有延迟的。但是，我们可以减少数据的停机时间和处理时间。为此，我们拥有HDF（Hortonworks数据流）。它可以处理运动中的数据。有许多服务提供实时数据流。您可以以Kafka，Nifi，Storm等为例。这些工具用于处理数据。您还需要以一种无需时间（〜2秒）即可获取数据的方式存储数据，因为我们使用的是HBase。 HBase将数据存储在柱状结构中。

静止数据（历史/已存储数据以备将来使用）

因此，要存储静态数据，不会出现此类问题。 HDP（Hortonworks数据平台）在那里为我们提供摄取，存储和处理数据的服务。甚至我们都可以将HDF服务集成到2.6版之前的HDP中，这也使得处理运动中的数据也更加容易。在这里，我们需要数据库来存储大量数据。但是，我们提供了HDFS（Hadoop分布式文件系统），可以帮助我们存储任何类型的数据。但是我们不只想存储我们的数据，我们想要在需要时立即获取它。那么，我们打算如何做呢？通过以结构化形式存储我们的数据。为此，我们提供了Hive和HBase。要存储如此大量的数据（以TB为单位），我们需要运行繁重的流程，在这些流程中可以使用MapReduce，YARN，Spark，Kubernetes，Spark。

这是在Hadoop中存储和处理数据的基本思想。

您可以随时从互联网上阅读它们。

Hortonworks：Hbase，Hive等用于哪种数据类型

1 个答案: