应用错误收集

Hadoop可以读取任意密钥二进制文件

时间：2011-09-28 03:04:17

标签： binary hadoop

看起来Hadoop MapReduce需要文本或二进制文本中的键值对结构。实际上，我们可能会将文件拆分为要处理的块。但关键可能是遍布文件。一个键后跟一个值可能不是很明确。是否有任何InputFileFormatter可以读取这种类型的二进制文件？我不想使用Map Reduce和Map Reduce。这将降低性能并且无法使用map reduce。有什么建议？谢谢，

1 个答案:

答案 0 :(得分：1)

根据Hadoop : The Definitive Guide

FileInputFormats定义的逻辑记录通常不适合HDFS 块。例如，TextInputFormat的逻辑记录是将要交叉的行 HDFS边界往往不是。这与你的运作无关例如，程序行不会被遗漏或破坏 - 但值得了解，因为它确实意味着数据本地映射（即，在同一主机上运行的映射）因为他们的输入数据）将执行一些远程读取。这导致的轻微开销是通常不重要。

如果文件在边界之间被HDFS拆分，那么Hadoop框架将负责处理它。但如果手动拆分文件，则必须考虑边界。

实际上，我们可能会将文件拆分为要处理的块。但密钥可能分布在整个文件中。一个键后面跟一个值可能不是很明确。

情况是什么，我们可以为此找一个解决方法？