我正在尝试了解Avro并且知道它是Hadoop使用的数据序列化框架之一。
在学习Hadoop时,我发现Hadoop使用自己的Serlization框架而不是Java的序列化,所以我可以在Hadoop中看到Writable
,WritableComparable
。
现在,在通过AVRO之后,它说Avro被用作Serlization框架。
因此我有点困惑。所以,当我们说Hadoop自己的序列化框架时,我们是指Avro还是别的东西(内置于" hadoop"本身)。
任何人都可以帮我理解这个吗?
答案 0 :(得分:1)
Hadoop Writables不是Avro,而是"其他东西"
Avro是一个独立的项目,它的模式模型允许嵌套结构和演变。据我所知,Hadoop序列化没有概念模式演变。
Thrift是Hadoop项目中常见的另一种面向行的序列化格式。
其他(柱状)数据存储格式包括Parquet和ORC