我试图理解Data Lakes,大多数示例仅显示简单的用例。我想了解的是有效的“联接查询”。
例如,我有一个包含产品数据的文件(上传到S3-Product-Data)和一个包含产品年销售额的数据库(上传到S3-Product-Sales)。 AWS Lakes / Athena如何进行在这两个环境中运行的查询?
当然需要链接它们。我只是不确定查询是什么样子,也不知道雅典娜在后台如何合并数据(并表现出色)。
答案 0 :(得分:0)
您要做的是在Athena中创建一个表,该表引用带有产品数据的文件,而另一个表则引用具有年度销售额的文件。之后,您可以运行合并表的SQL。
SQL的确切外观取决于您的数据,它具有哪些列等。如果您的产品数据具有一个product_id
列,而您的销售数据也是如此,则可以像这样将它们联接(该列名称当然都是由人组成的):
SELECT product_name, SUM(sales.sold_for) AS total_revenue
FROM products
LEFT JOIN sales USING (product_id)
答案 1 :(得分:0)
对于数据库中的数据,请提取csv文件中的数据并将其放入另一个s3存储桶中。然后,配置胶搜寻器以在此s3存储桶上搜寻并让其创建表。然后,您可以将现有的雅典娜表和新表连接起来。