我在S3上有一些大型zip文件。这些zip文件中的每一个都包含几个gz文件,其中包含JSON格式的数据。我需要(i)将gz文件复制到HDFS和(ii)优选地通过Apache Spark / Impala / Hive处理文件。最简单/最好的方法是什么?
答案 0 :(得分:0)
1)尝试使用distcp将文件从s3复制到HDFS
2)对于处理,使用“org.apache.spark.sql.hive.HiveContext
”的read.json
从HDFS读取JSON数据并创建数据帧。
然后对它进行任何操作。
点击此链接, http://spark.apache.org/docs/latest/sql-programming-guide.html#creating-dataframes