标签: json hadoop apache-spark avro parquet
我遇到了一个困扰我的问题好几个月了。我正在尝试创建一个Avro Schema(用于序列化任意数据的模式强制格式,基本上,据我所知)将一些复杂的JSON文件(任意和嵌套)最终转换为管道中的Parquet。
我想知道是否有办法获得我需要的字段名称的超集,这个用例以合理的方式留在Apache Spark而不是Hadoop MR?
我认为正在开发的Apache Arrow可能能够通过最终将JSON视为一等公民来帮助避免这种情况,但它仍然没有实现。
真诚地感谢任何指导!