如何使用AWS EMR使用csv?

时间:2014-03-11 10:52:54

标签: amazon-web-services emr

我正在将.csv文件复制到s3存储桶中,我需要像在RDB中一样加入它们。是否有可能做到这一点?我希望你的伟大思想。 =)

1 个答案:

答案 0 :(得分:1)

您可以使用AWS Data管道和EMR执行此操作。

EMR支持CSV(和TSV)作为类型(意思是,它将理解文件并且能够将其视为具有数据行的表)。

您将这些文件保存在S3存储桶中,此存储桶将作为HDFS(Hadoop分布式文件系统)表安装。一旦发生这种情况,您可以发出HIVE查询(也可以加入)并完成您需要的大部分事情。

我将从这里向您指出文档。您需要花一些时间来阅读和理解整个设置,但一旦掌握它就非常方便。 http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-s3tos3hivecsv.html