AWS Data Lake Ingest

时间:2017-09-21 19:01:33

标签: excel amazon-web-services amazon-s3 amazon-athena data-lake

您是否需要使用胶水摄取excel和其他专有格式,或者允许胶水在您的数据湖中使用这些数据格式来爬行您的s3存储桶?

我已经完成了" Data Lake Foundation on the AWS Cloud"文件,我一直在试图将数据输入湖中。我有一个数据提供程序,其系统中存储了大量数据作为excel和访问文件。

根据流程流程,他们会将数据上传到提交s3存储桶中,这会引发一系列操作,但是没有数据转换为可与其他工具一起使用的格式。

使用这些文件是否需要在存储桶中提交的数据上使用胶水,还是有其他方法可以将这些数据提供给其他工具,如Athena和redshift spectrum?

感谢您对此主题的任何启发。

-Guido

1 个答案:

答案 0 :(得分:3)

我没有看到将excel数据直接带到Data Lake。在加载到Data Lake之前,您可能需要转换为CSV / TSV / Json或其他格式。

Redshift Spectrum支持的格式:

http://docs.aws.amazon.com/redshift/latest/dg/c-spectrum-data-files.html - 我现在再也看不到Excel了。

雅典娜支持的文件格式:

http://docs.aws.amazon.com/athena/latest/ug/supported-formats.html - 我在这里也不支持Excel。

您需要将文件上传到S3,以便使用Athena或Redshift Spectrum,甚至是Redshift存储本身。

将文件上传到S3:

如果您有更大的文件,则需要使用S3分段上传来更快地上传。如果您想要更快的速度,则需要使用S3加速器上传文件。

使用Athena查询大数据:

您可以从S3位置使用Athena创建外部表。创建外部表后,使用Athena Sql引用查询数据。

http://docs.aws.amazon.com/athena/latest/ug/language-reference.html

使用Redshift Spectrum查询大数据:

与Athena类似,您可以使用Redshift创建外部表。开始查询这些表并在Redshift上获取结果。

Redshift有很多商业工具,我使用的是SQL Workbench。它是免费的开源和坚如磐石,由AWS支持。

SQL WorkBench:http://www.sql-workbench.net/

将WorkBench连接到Redshift:http://docs.aws.amazon.com/redshift/latest/mgmt/connecting-using-workbench.html

将数据复制到Redshift:

此外,如果您想将数据存储带到Redshift,您可以使用copy命令从S3中提取数据并将其加载到Redshift。

复制命令示例:

http://docs.aws.amazon.com/redshift/latest/dg/r_COPY_command_examples.html

Redshift群集大小和节点数:

在创建Redshift Cluster之前,请检查所需的大小和节点数。更多数量的节点并行运行查询。另一个重要因素是您的数据分布情况。 (分配键和排序键)

我对Redshift有很好的体验,可能需要一段时间才能达到速度。

希望它有所帮助。