将输入排序为映射器Hadoop流

时间:2017-02-17 12:00:42

标签: python sorting hadoop hadoop-streaming

我正在使用Hadoop Streaming 2.7.3和Python。有没有一种方法可以在将数据分配给映射器之后但在映射器开始处理之前对其进行排序

我尝试使用带有我的mapper.py文件的UNIX排序命令,并将其作为hadoop流中的“mapper”选项,但它不起作用。像

这样的东西
-mapper "sort -t' ' -k2,2n | python3 mapper.py"

我也尝试使用UNIX sort命令作为映射器,使用mapper.py文件作为组合器,但无济于事。像

-mapper "sort -t' ' -k2,2n"
-combiner "python3 mapper.py"

0 个答案:

没有答案