我试图找出数据仓库,集群数据处理和用于查询数据仓库的工具/基础架构之间的差异(工具/服务/程序之间)
所以假设我有以下设置来为某个用例执行某些数据处理
Hadoop Cluster for Distributed Data processing
Hive for providing infrastructure and Functions for querying data from a data warehouse
My data sitting in an RDBMS or a NoSQL database
在上面的例子中,数据仓库究竟是什么?我天真的大脑认为在上面的上下文中是RDBMS或NoSQL数据库是数据仓库。但根据定义,数据仓库不是用于报告和数据分析的数据库吗? (从维基百科无耻地窃取的定义)。那么我可以将传统的RDBMS / NoSQL数据库称为数据仓库吗?感谢。
答案 0 :(得分:1)
您不能将每个关系数据库系统称为数据仓库,因为数据仓库的一个主要功能是聚合来自多个数据库(具有不同模式)的数据。它通常使用“star schema”来完成,允许组合多个维度和多个粒度。
因为 NoSQL数据库系统(基于图形或基于map-reduce)是无模式的,所以它们确实可以存储来自不同模式的数据。此外,Map-Reduce可用于聚合具有不同粒度的数据(例如,汇总每日数据以将其与月度数据进行比较)。