我想知道如何在Hadoop中拆分文件。我的意思是,我知道它们被分割成一定大小(例如64MB),但是在一行或一些角色等处发生了中断吗?
名称节点如何跟踪文件分割的顺序,例如如何从数据节点收集文件后按顺序组装它们。
答案 0 :(得分:1)
LineRecordReader 读取每一行并将键/值对发送到映射器实例。
如果EOL出现在定义的块大小之前(在这种情况下为64MB),则读者继续下一行
现在,如果读者达到块大小而不是EOL,则它继续读取直到EOL并设置为块
现在,下一个块从读取器停止的地方开始(即,在EOL之后)。