标签: json hadoop mapreduce avro parquet
我的问题实质上是这个引用问题的应用:
Convert JSON to Parquet
我发现自己处于一个相当独特的位置,即必须半手动策划Avro架构,以获取HDFS目录中JSON文件(由已知资源的任意组合组成)中包含的字段的超集。
这是我尝试开发的ETL管道的一部分,用于将这些文件转换为镶木地板,以便在Spark中更有效/更容易处理。我以前从未写过MapReduce程序,所以我从头开始。如果有人以前遇到过这种类型的问题,我将不胜感激任何见解。谢谢!