应用错误收集

时间：2014-01-15 14:56:22

标签： hadoop hive apache-pig bigdata amazon-redshift

我有大量的json文件，总共> 100TB大小，每个json文件都是10GB bzip，每行包含一个json对象，它们存储在s3上

答案 0 :(得分：3)

最快捷，最简单的方法是启动一个装有Hive的EMR集群来完成繁重的工作。通过使用JsonSerde，您可以轻松地将数据转换为csv格式。这只需要您将数据插入到JSON格式表中的CSV格式表中。

可以在这里找到处理JsonSerde的好教程：

用于CSV格式的好库也是：

EMR群集可能是短暂的，只有一个作业才需要，也可以跨越低成本的现场实例。

获得CSV格式后，Redshift COPY文档就足够了。