应用错误收集

从头开始构建Data Lake

时间：2019-02-27 02:48:45

标签： hadoop data-warehouse data-lake

我正在尝试从头开始构建“数据湖”。我了解数据湖的工作方式及其目的。遍布互联网。但是，当出现问题时，如何从头开始构建一个问题就没有根源了。我想了解是否：

数据仓库+ Hadoop =数据湖

我知道如何运行Hadoop并将数据引入Hadoop。我想在内部数据湖上构建一个样本来演示我的经理。任何帮助表示赞赏。

2 个答案:

答案 0 :(得分：0)

您必须具有结构化和非结构化数据，才能将Hadoop集群变成数据湖。

因此，您必须具有一些ETL管道来获取非结构化数据并将其转换为结构化数据。产品评论或类似的评论会提供您的非结构化数据。将其转换为Hive可用的东西（例如）将为您提供结构化数据。

我将查看https://opendata.stackexchange.com/来获取您的数据，并查看google Hadoop ETL以获取有关如何清理数据的想法。由您决定如何编写管道（Spark或MapReduce）。

答案 1 :(得分：0)

您可以使用AWS服务构建datalake。一种简单的方法是使用AWS CloudFormation模板配置解决方案，包括AWS服务，例如Amazon S3用于无限数据存储，Amazon Cognito用于身份验证，Amazon Elasticsearch用于强大的搜索功能，AWS Lambda用于微服务，AWS Glue用于数据传输和Amazon Athena进行数据分析。下图代表使用AWS服务在AWS上构建数据湖的完整架构。

请参阅此文章以供参考：https://medium.com/@pmahmoudzadeh/building-a-data-lake-on-aws-3f02f66a079e