我刚开始学习大数据域,所以我想知道在SQL Server旁边实现数据仓库的最佳数据库管理系统
答案 0 :(得分:0)
很难回答这个问题,因为没有给出很多信息。我会问一些问题来决定这个问题:
大数据可以是 Variety 。因此,正确的数据库的问题可能不是正确的问题,但问题应该是:数据如何?这是关系吗?它是基于NoSQL的,例如是否形成了JSON或XML?它是两种类型的混合物吗?这可能导致只使用一个PostgreSQL实例或使用混合物" Data Lake"具有Hadoop组件的环境,如HDFS / Hive,Spark,以及用于非结构化NoSQL JSON数据的MongoDB实例。
大数据可以是 Velocity 。同样,这里应该是一个问题:必须消耗多少时间的数据?所有这些数据都必须是交易性的吗?如果管道不够快以消耗数据,是否可以忽略某些信息?大数据基础设施的计划位置是在云中还是在内部?
大数据可以是卷。那么,有多大的环境需要规划?现在的数据量有多大?一年有多大?增长率有多大?这可能导致决定不使用许可工具来避免许可费用。此外,这可能导致决定是在云中还是在内部构建环境 - 在此前提下还应明确是否需要高可用性。
要回答这个问题,将来需要了解更多有关计划用例的信息。如果您真的只想存储关系数据,那么有一些关于数据库系统的列表。
从我的头顶开始,例如: