GCP Hadoop数据仓库?

时间:2018-09-24 05:05:02

标签: database hadoop google-cloud-datastore data-warehouse google-cloud-dataproc

我知道Google BigQuery是一个数据仓库,但是Dataproc,Big Table,Pub / Sub是否被视为数据仓库?那会使Hadoop成为数据仓库吗?

2 个答案:

答案 0 :(得分:0)

“数据仓库”主要是一种信息系统概念,它描述了(例如公司/业务)数据的集中且受信任的来源。

来自Wikipedia:“ DW是来自一个或多个不同来源的集成数据的中央存储库。它们将当前和历史数据存储在一个地方,用于为整个企业的工人创建分析报告。” < / p>

关于您的问题,一个简单的答案是:

  • Google BigQuery是一个查询执行(和/或数据处理)引擎,可用于不同类型的数据存储。
  • Google BigTable是一种数据库服务,可用于实现 数据仓库或任何其他数据存储。
  • Google DataProc是一种数据处理服务,由通用的Hadoop处理组件(如MapReduce(或Spark,如果您将其视为Hadoop的一部分)组成)组成。
  • Hadoop是用于数据存储和处理的框架/平台,由 不同的组件(例如,通过HDFS进行数据存储,通过MapReduce进行数据处理)。您可以使用Hadoop平台来构建数据仓库,例如通过使用MapReduce处理数据并将其加载到ORC文件中,这些文件将存储在HDFS中,并且可以由Hive查询。但是只有当它是“关于数据真相的集中式单一版本”时,才将其称为数据仓库;)

答案 1 :(得分:-1)

  • Dataproc可以作为Hadoop集群充当数据湖,但由于某些工具可以查询其信息,因此可以将其视为数据仓库。
  • BigTable最多可以存储PB的数据,但是它是为需要非常高的吞吐量和可伸缩性的应用程序设计的。尽管如此,由于其高存储容量和流处理/分析功能,它也可以被视为数据仓库。
  • 发布/订阅它不是数据仓库,因为它是发布-订阅服务。