我是hadoop的新手。我对输入文件的分割是谁感到困惑。假设我有一个200 MB的文件,块大小是64 MB。所以我们需要总共4个块乘以复制因子。谁拆分文件,以及客户端可以分割文件如何写入数据节点。
如果可能,请提供此信息的链接?我尝试使用谷歌搜索并没有成功找到详细的hadoop架构解释。有几个网站,但缺少细节。
答案 0 :(得分:1)
虽然这些年来一些细节发生了变化,但这两个文件(由参与HDFS早期开发的人员编写)提供了对HDFS中工作原理的非常好的描述:
回答您的具体问题:HDFS中间件(特别是HDFS客户端组件)在上载之前将文件拆分为块,并在将文件下载到客户端时加入块。这对用户完全透明。