将JSON转换为ORC [AWS]

时间:2018-03-17 15:52:31

标签: amazon-s3 aws-lambda amazon-emr orc aws-glue

这是我的情况: 我有一个应用程序将json文件旋转到s3存储桶。我需要转换ORC格式的文件,以便从Athena或EMR进行咨询。 我的第一次尝试是在Node中编程的lambda,但我没有找到任何转换模块。 我认为使用GLUE或EMR可以更轻松地完成,但我找不到解决方案。

任何帮助?

谢谢!

1 个答案:

答案 0 :(得分:0)

你可以使用胶水。您将需要一个描述数据模式的粘合数据目录表,您可以使用粘合爬虫自动创建它。

然后创建一个粘合作业,如果您按照添加作业向导,您可以在向导的数据目标部分选择ORC作为数据输出格式。

如果您浏览AWS胶水上的教程,它将引导您完成类似的操作但转换为Parquet格式,如果您对数据执行相同的步骤但选择ORC则应该执行您想要的操作。