解释问题的示例 -
我的文件大小为500MB(input.csv)
文件中只包含一行(记录)
那么文件将如何存储在HDFS块中以及如何计算输入分割?
答案 0 :(得分:0)
您可能需要查看此链接:How does Hadoop process records split across block boundaries?请注意“远程阅读”#39;提及。
您问题中提到的单个记录将存储在多个块中。但是,如果使用TextInputFormat进行读取,则映射器必须跨块执行远程读取以处理记录。