Apache Spark-从嵌套的任意JSON文件中获取所有字段名称

时间:2016-03-31 22:00:59

标签: json hadoop apache-spark avro parquet

我遇到了一个困扰我的问题好几个月了。我正在尝试创建一个Avro Schema(用于序列化任意数据的模式强制格式,基本上,据我所知)将一些复杂的JSON文件(任意和嵌套)最终转换为管道中的Parquet。

我想知道是否有办法获得我需要的字段名称的超集,这个用例以合理的方式留在Apache Spark而不是Hadoop MR?

我认为正在开发的Apache Arrow可能能够通过最终将JSON视为一等公民来帮助避免这种情况,但它仍然没有实现。

真诚地感谢任何指导!

0 个答案:

没有答案