我想了解属性mapreduce.job.split.metainfo.maxsize
及其效果。描述说:
拆分元信息文件的最大允许大小。 JobTracker不会尝试读取大于配置值的拆分元信息文件。如果设置为-1,则无限制。
“拆分元信息文件”包含什么?我已经读过它将存储有关输入拆分的元信息。输入拆分是块上的逻辑包装,以创建完整的记录,对吧?拆分元信息是否包含可能在多个块中可用的实际记录的块地址?
答案 0 :(得分:2)
当提交hadoop作业时,整套输入文件被切成“拆分”,并将其存储到每个节点及其元数据。从那时起,但是分裂元数据的数量是有限的 - 属性“mapreduce.jobtracker.split.metainfo.maxsize”决定了这个限制,它的默认值是1000万。您可以通过增加此值来绕过此限制,或通过将其值设置为-1
来解除限制