如何构建一个大数据平台来接收和存储Hadoop中的大数据

时间:2015-10-05 14:53:50

标签: hadoop hbase bigdata data-warehouse platform

我正在尝试建立一个大数据平台来接收和存储大量异构数据(如文档,视频,图像,传感器数据等),然后实现分类过程。  那么我正在使用的架构可以帮助我 VMware VSphere EXSi Hadoop的
Habse 节约 XAMPP
所有这些工作正常,但我不知道如何接收大量数据以及如何存储数据,因为我发现Hbase是一个面向列的数据库,它不是数据仓库。

1 个答案:

答案 0 :(得分:1)

您必须为大数据类型(结构化,半结构化和非结构化)自定义解决方案

如果总数据大小<= 10 TB

,您可以将 HIVE / HBASE 用于结构化数据

您可以使用 SQOOP 从传统的RDBMS数据库Oracle,SQL Server等导入结构化数据。

您可以使用 FLUME 处理非结构化数据。

您可以使用内容管理系统处理非结构化数据&amp;半结构化数据 - Tera或Peta字节数据。如果您要存储非结构化数据,我更喜欢将数据存储在CMS中,并使用NoSQL数据库中的元数据信息,如HBASE

要处理大数据流,您可以使用 PIG

查看Hadoop中的Structured DataUn-Structured data处理

Different type of data solutions