MapReduce作业收集JSON的HDFS目录中的所有唯一字段

时间:2016-02-19 00:14:11

标签: json hadoop mapreduce avro parquet

我的问题实质上是这个引用问题的应用:

Convert JSON to Parquet

我发现自己处于一个相当独特的位置,即必须半手动策划Avro架构,以获取HDFS目录中JSON文件(由已知资源的任意组合组成)中包含的字段的超集。

这是我尝试开发的ETL管道的一部分,用于将这些文件转换为镶木地板,以便在Spark中更有效/更容易处理。我以前从未写过MapReduce程序,所以我从头开始。如果有人以前遇到过这种类型的问题,我将不胜感激任何见解。谢谢!

0 个答案:

没有答案