我对Hadoop及其文件格式有点新鲜。我有一个与之相关的以下查询。
在4数据节点集群中,只有一个数据节点具有需要处理任何问题的所有数据(需要使用MapReduce框架并行处理的大量数据)以及3个数据节点的其余部分是空的。因此,基于数据局部性,Avro和TextInputFormat将以比其他更快的方式对数据进行消费/解析的方式有多么不同。
我知道Avro优于TextFileFormat
的基本功能/优点**Compact** − To make the best use of network bandwidth, which is the most scarce resource in a data center.
**Fast** − Since the communication between the nodes is crucial in distributed systems, the serialization and deserialization process should be quick, producing less overhead.
**Extensible** − Protocols change over time to meet new requirements, so it should be straightforward to evolve the protocol in a controlled manner for clients and servers.
**Interoperable** − The message format should support the nodes that are written in different languages.
但我正在寻找答案,以更具体和描述性的方式来回答这种特殊情况。我会提前感谢您的帮助。