Question

Migrating the data from Legacy database [~50 TB] to New Database.
Migrating data from staging database[ 5GB per 1 hr] to New Database.

Before storing into new database we are doing data analytic(validating, removing unwanted data and , storing only valid data)

请使用Hadoop生态系统提供架构。

Answer 1

我想你可以Cloudera经理和CDH（hadoop）。

ETL：Sqoop 2 SQL：Hive＆amp;黑斑羚数据挖掘：Spark。

Sqoop可以轻松地将旧数据库中的数据加载到hadoop（简单命令）

Sqoop import --connect [jdbc:oracle:thin:@//ip:port/servicename] --username xxx --password xxx --table xxx --hive-table

之后，您可以使用HUE（Web界面编写SQL，元数据，工作流）来查询数据。

Impala是Cloudera的MPP数据库。

很容易扩展。

首先，为了证明概念，您可以从4个节点启动集群：

主节点（* 1）：64G内存从节点（* 3）：32G内存

将少量数据加载到数据湖中。完成后，您可以向外扩展并将更多节点添加到数据湖中。

如何使用hadoop解决以下用例？

1 个答案: