是否可以将整个文件发送到映射器而不进行拆分?
我已阅读this但我想知道是否有其他方法可以做同样的事情而无需生成中间文件。理想情况下,我希望Hadoop命令行上有一个现有选项。
我在Amazon EMR上使用streaming
工具和Python脚本。
答案 0 :(得分:1)
只需将配置属性mapred.min.split.size
设置为巨大的(10G):
-D mapred.min.split.size=10737418240
或者使用不可拆分的编解码器(Gzip)压缩输入文件。使用.gz扩展名,TextInputFormat将返回false到isSplittable(FileSystem, Path)
方法