将关系数据存储在hadoop中以进行分析

时间:2019-01-28 16:25:21

标签: apache-spark hadoop hive hbase relational-database

我已经阅读了很多有关hadoop集群的信息,以及将关系数据存储到hadoop的不同选择,因此我们可以为我们的关系数据和非关系数据提供一个集中的数据集群,以进行分析。 但是随着我阅读的增多,它变得越来越复杂。 我不知道将关系数据转换为hadoop的最佳方法是什么。

  • 将它们存储在HBase的大表中(我认为将所有表联接起来非常难看)
  • 将它们存储在Hive的不同表中吗?
  • 还有其他选择吗?

我当时想我可以将每个表存储在Hive中,然后使用SPARK SQL执行查询。我不知道这是不是最好的选择? 有人可以帮我一下吗?

1 个答案:

答案 0 :(得分:-1)

如果您打算将hadoop用于OLAP,那么您遇到了正确的选择。现在,在企业中,数据湖比数据仓库更受欢迎,它可以将数据集中在一个地方以进行数据分析。

要回答有关转换关系数据的具体问题,可以使用以下工具,

  1. Hive :用于Hadoop数据仓库的最受欢迎的工具,其类似于SQL类型的语言进行分析。尽管查询在分析数据时会有些延迟,但这是因为数据处理在磁盘上。
  2. HBase :它是对Hadoop中数据的随机和实时访问,并基于键值对数据原理工作。并且无法执行联接操作。

    1. SparkSQL :如今,SparkSQL在数据处理方面更受欢迎,因为所有数据都在hadoop群集的内存中处理,因此为什么它在数秒之内比蜂巢和查询延迟要快。

还有其他工具可以分析半结构化,非结构化和流数据Hadoop。而且这种用例在未来会很快出现。因此,从更可持续的解决方案角度来看,Hadoop是更好的解决方案。