我正在将.csv文件复制到s3存储桶中,我需要像在RDB中一样加入它们。是否有可能做到这一点?我希望你的伟大思想。 =)
答案 0 :(得分:1)
您可以使用AWS Data管道和EMR执行此操作。
EMR支持CSV(和TSV)作为类型(意思是,它将理解文件并且能够将其视为具有数据行的表)。
您将这些文件保存在S3存储桶中,此存储桶将作为HDFS(Hadoop分布式文件系统)表安装。一旦发生这种情况,您可以发出HIVE查询(也可以加入)并完成您需要的大部分事情。
我将从这里向您指出文档。您需要花一些时间来阅读和理解整个设置,但一旦掌握它就非常方便。 http://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-s3tos3hivecsv.html