我需要输入文件到map-reduce program.But该文件不应该被拆分并作为整体传递给map函数。一个选项是将issplitable设置为false但是我该怎么办?
答案 0 :(得分:3)
1)当您的文件扩展名为.gz时,通常isSplitable返回false。
OR
2)您可以编写自己的InputFormat覆盖isSplitable。
OR
3)不要试图让isSplitable返回false。而是将文件的块大小设置为大于文件大小:
hadoop fs -D fs.local.block.size = 1000000000 -put local_name remote_location
答案 1 :(得分:0)
To do this you need to write a custom input class which extends enter link description hereFileInputFormat and in this class you need to override method called isSplittable to return false.