如何从java中的avro文件中提取模式

时间:2017-08-04 01:09:03

标签: java avro avro-tools

如何首先提取架构,然后从java中的avro文件中提取数据?除了java之外,与this问题相同。

我见过如何从avsc文件中获取模式但不是avro文件的示例。任何方向都非常赞赏。

Schema schema = new Schema.Parser().parse(new File("/home/Hadoop/Avro/schema/emp.avsc"));

2 个答案:

答案 0 :(得分:1)

您可以使用此处显示的数据块库https://github.com/databricks/spark-avro,它会将avro文件加载到DCount("[Squadron]", "tblIGEMS", "[Squadron] = xyz") Dataframe

获得Dataset<Row>后,您可以使用Dataset<Row>

直接获取架构

答案 1 :(得分:1)

感谢@Helder Pereira的回答。作为补充,也可以从getSchema()实例的GenericRecord中获取模式。
Here是有关它的实时演示,上面的链接显示了如何以Java ParquetORCAVRO数据格式获取数据和架构。