HDFS中的Avro架构生成

时间:2016-10-14 15:38:41

标签: hadoop apache-spark avro spark-avro

我有一个场景,我在HDFS中有一些avro文件。我需要为HDFS中的那些AVRO数据文件生成Avro Schema文件。我尝试使用Spark(https://github.com/databricks/spark-avro/blob/master/src/main/scala/com/databricks/spark/avro/SchemaConverters.scala)进行研究。

除了将AVRO数据文件带到本地并执行HDFS PUT之外,还有其他功能。

欢迎任何建议。谢谢!

1 个答案:

答案 0 :(得分:1)

每个avro文件都包含了它编写的avro架构。您可以使用avro-tools.jar(从maven下载)提取此架构。你只能下载一个部分(假设所有其他文件都是用相同的模式编写的)并使用avro工具(java -jar~ / workspace / avro-tools-1.7.7.jar getschema xxx.avro)来提取它