应用错误收集

我的问题实质上是这个引用问题的应用：

我发现自己处于一个相当独特的位置，即必须半手动策划Avro架构，以获取HDFS目录中JSON文件（由已知资源的任意组合组成）中包含的字段的超集。

这是我尝试开发的ETL管道的一部分，用于将这些文件转换为镶木地板，以便在Spark中更有效/更容易处理。我以前从未写过MapReduce程序，所以我从头开始。如果有人以前遇到过这种类型的问题，我将不胜感激任何见解。谢谢！