Hadoop不可拆分的TextInputFormat

时间:2012-06-10 14:30:34

标签: python hadoop amazon-web-services streaming amazon-emr

是否可以将整个文件发送到映射器而不进行拆分?

我已阅读this但我想知道是否有其他方法可以做同样的事情而无需生成中间文件。理想情况下,我希望Hadoop命令行上有一个现有选项。

我在Amazon EMR上使用streaming工具和Python脚本。

1 个答案:

答案 0 :(得分:1)

只需将配置属性mapred.min.split.size设置为巨大的(10G):

-D mapred.min.split.size=10737418240

或者使用不可拆分的编解码器(Gzip)压缩输入文件。使用.gz扩展名,TextInputFormat将返回false到isSplittable(FileSystem, Path)方法