如何首先提取架构,然后从java中的avro文件中提取数据?除了java之外,与this问题相同。
我见过如何从avsc文件中获取模式但不是avro文件的示例。任何方向都非常赞赏。
Schema schema = new Schema.Parser().parse(new File("/home/Hadoop/Avro/schema/emp.avsc"));
答案 0 :(得分:1)
您可以使用此处显示的数据块库https://github.com/databricks/spark-avro,它会将avro文件加载到DCount("[Squadron]", "tblIGEMS", "[Squadron] = xyz")
(Dataframe
)
获得Dataset<Row>
后,您可以使用Dataset<Row>
答案 1 :(得分:1)
感谢@Helder Pereira的回答。作为补充,也可以从getSchema()
实例的GenericRecord
中获取模式。
Here是有关它的实时演示,上面的链接显示了如何以Java Parquet
,ORC
和AVRO
数据格式获取数据和架构。