复制并从S3解压缩到HDFS

时间:2016-07-20 06:13:47

标签: json apache-spark amazon-s3 zip gz

我在S3上有一些大型zip文件。这些zip文件中的每一个都包含几个gz文件,其中包含JSON格式的数据。我需要(i)将gz文件复制到HDFS和(ii)优选地通过Apache Spark / Impala / Hive处理文件。最简单/最好的方法是什么?

1 个答案:

答案 0 :(得分:0)

1)尝试使用distcp将文件从s3复制到HDFS

2)对于处理,使用“org.apache.spark.sql.hive.HiveContext”的read.json从HDFS读取JSON数据并创建数据帧。 然后对它进行任何操作。

点击此链接, http://spark.apache.org/docs/latest/sql-programming-guide.html#creating-dataframes