Migrating the data from Legacy database [~50 TB] to New Database.
Migrating data from staging database[ 5GB per 1 hr] to New Database.
Before storing into new database we are doing data analytic(validating, removing unwanted data and , storing only valid data)
请使用Hadoop生态系统提供架构。
答案 0 :(得分:1)
我想你可以Cloudera经理和CDH(hadoop)。
ETL:Sqoop 2 SQL:Hive&黑斑羚 数据挖掘:Spark。
Sqoop可以轻松地将旧数据库中的数据加载到hadoop(简单命令)
Sqoop import --connect [jdbc:oracle:thin:@//ip:port/servicename] --username xxx --password xxx --table xxx --hive-table
之后,您可以使用HUE(Web界面编写SQL,元数据,工作流)来查询数据。
Impala是Cloudera的MPP数据库。
很容易扩展。
首先,为了证明概念,您可以从4个节点启动集群:
主节点(* 1):64G内存 从节点(* 3):32G内存
将少量数据加载到数据湖中。 完成后,您可以向外扩展并将更多节点添加到数据湖中。