我正在尝试建立一个大数据平台来接收和存储大量异构数据(如文档,视频,图像,传感器数据等),然后实现分类过程。
那么我正在使用的架构可以帮助我
VMware VSphere EXSi
Hadoop的
Habse
节约
XAMPP
所有这些工作正常,但我不知道如何接收大量数据以及如何存储数据,因为我发现Hbase是一个面向列的数据库,它不是数据仓库。
答案 0 :(得分:1)
您必须为大数据类型(结构化,半结构化和非结构化)自定义解决方案
如果总数据大小<= 10 TB
,您可以将 HIVE / HBASE 用于结构化数据您可以使用 SQOOP 从传统的RDBMS数据库Oracle,SQL Server等导入结构化数据。
您可以使用 FLUME 处理非结构化数据。
您可以使用内容管理系统处理非结构化数据&amp;半结构化数据 - Tera或Peta字节数据。如果您要存储非结构化数据,我更喜欢将数据存储在CMS中,并使用NoSQL数据库中的元数据信息,如HBASE
要处理大数据流,您可以使用 PIG 。
查看Hadoop中的Structured Data和Un-Structured data处理