AWS Data Lake Dynamo与ElasticSearch

时间:2017-10-09 18:38:15

标签: amazon-web-services elasticsearch amazon-s3 amazon-dynamodb data-lake

我真的很难理解如何使用Dynamo / ElasticSearch来支持AWS数据湖工作(元数据/目录)。您似乎会在Dynamo中记录zip存档的各个S3位置以及您希望在ES中搜索的任何其他元数据/属性。如果这是正确的,你将如何使用这两者来支持它。我试图找到关于如何将两者正确配对的更详细信息,但一直没有成功。其他人拥有的任何信息/文件都会很棒。很有可能我忽略了一些明显的例子/文档。

我想象的是以下内容:

  • 用户可以在ES中搜索指向匹配的高级S3存储桶/分区的元数据/属性。
  • DynamoDB中的搜索将违反ES结果中的密钥(分区/存储桶)部分
  • 搜索很可能会导致许多单个对象/密钥随后可以被处理,提取等。

1 个答案:

答案 0 :(得分:1)

我与我们的一位AWS代表进行了交谈,他们将我推荐给了本文。这是一个很好的起点。 AWS Data Lake。这似乎回答了我关于组件和方法的用户的一些问题,这在我之前并不清楚。

亮点:

  • 实施数据湖的蓝图。组合S3 / DynamoDB / ES很常见。
  • 实施有很多变化。将RDS替换为ES / DynamoDB,仅使用ES等。
  • 我们很可能会先从RDS开始,然后转到DyanmoDB / ES。