Question

我试图理解Data Lakes，大多数示例仅显示简单的用例。我想了解的是有效的“联接查询”。

例如，我有一个包含产品数据的文件（上传到S3-Product-Data）和一个包含产品年销售额的数据库（上传到S3-Product-Sales）。 AWS Lakes / Athena如何进行在这两个环境中运行的查询？

当然需要链接它们。我只是不确定查询是什么样子，也不知道雅典娜在后台如何合并数据（并表现出色）。

Answer 1

您要做的是在Athena中创建一个表，该表引用带有产品数据的文件，而另一个表则引用具有年度销售额的文件。之后，您可以运行合并表的SQL。

SQL的确切外观取决于您的数据，它具有哪些列等。如果您的产品数据具有一个product_id列，而您的销售数据也是如此，则可以像这样将它们联接（该列名称当然都是由人组成的）：

SELECT product_name, SUM(sales.sold_for) AS total_revenue
FROM products
LEFT JOIN sales USING (product_id)

Answer 2

对于数据库中的数据，请提取csv文件中的数据并将其放入另一个s3存储桶中。然后，配置胶搜寻器以在此s3存储桶上搜寻并让其创建表。然后，您可以将现有的雅典娜表和新表连接起来。