TextInputFormat与Avro之间的比较

时间:2016-05-20 17:59:09

标签: hadoop hadoop2 avro hadoop-streaming file-format

我对Hadoop及其文件格式有点新鲜。我有一个与之相关的以下查询。

在4数据节点集群中,只有一个数据节点具有需要处理任何问题的所有数据(需要使用MapReduce框架并行处理的大量数据)以及3个数据节点的其余部分是空的。因此,基于数据局部性,Avro和TextInputFormat将以比其他更快的方式对数据进行消费/解析的方式有多么不同。

我知道Avro优于TextFileFormat

的基本功能/优点
**Compact** − To make the best use of network bandwidth, which is the most scarce resource in a data center.
**Fast** − Since the communication between the nodes is crucial in distributed systems, the serialization and deserialization process should be quick, producing less overhead.
**Extensible** − Protocols change over time to meet new requirements, so it should be straightforward to evolve the protocol in a controlled manner for clients and servers.
**Interoperable** − The message format should support the nodes that are written in different languages.

但我正在寻找答案,以更具体和描述性的方式来回答这种特殊情况。我会提前感谢您的帮助。

0 个答案:

没有答案