应用错误收集

复制并从S3解压缩到HDFS

时间：2016-07-20 06:13:47

标签： json apache-spark amazon-s3 zip gz

我在S3上有一些大型zip文件。这些zip文件中的每一个都包含几个gz文件，其中包含JSON格式的数据。我需要（i）将gz文件复制到HDFS和（ii）优选地通过Apache Spark / Impala / Hive处理文件。最简单/最好的方法是什么？

1 个答案:

答案 0 :(得分：0)

1）尝试使用distcp将文件从s3复制到HDFS

2）对于处理，使用“org.apache.spark.sql.hive.HiveContext”的read.json从HDFS读取JSON数据并创建数据帧。然后对它进行任何操作。

点击此链接， http://spark.apache.org/docs/latest/sql-programming-guide.html#creating-dataframes