应用错误收集

我遇到了一个困扰我的问题好几个月了。我正在尝试创建一个Avro Schema（用于序列化任意数据的模式强制格式，基本上，据我所知）将一些复杂的JSON文件（任意和嵌套）最终转换为管道中的Parquet。

我想知道是否有办法获得我需要的字段名称的超集，这个用例以合理的方式留在Apache Spark而不是Hadoop MR？

我认为正在开发的Apache Arrow可能能够通过最终将JSON视为一等公民来帮助避免这种情况，但它仍然没有实现。

真诚地感谢任何指导！