使用Map Reduce使用Hadoop Streaming进行排序

时间:2018-07-23 18:37:38

标签: python sorting mapreduce hadoop2 hadoop-streaming

我需要使用Hadoop Map Reduce排序10 GB的数据。输入文件的每一行都有字母数字字符串。

例如:

dfslkjf
341dsfdgf
ieoritpo4
fdlgkd

我正在使用单节点群集。

我计划使用Hadoop流。

我在python中原型化了mapper和reducer。 映射器: 将该块的每个单词作为键,值不重要

随机排序阶段将根据密钥对数据进行排序

减速器: 使用单个reducer打印从标准输入的每一行读取的每个键。由于随机排序和排序会将所有键按排序顺序放置,因此reducer将按排序顺序输出数据。

我使用了一个小的数据集和linux管道来测试产生正确排序输出的解决方案。我没有看到这种针对Hadoop的方法存在缺陷,请让我知道我对解决方案的了解中是否缺少某些东西。

0 个答案:

没有答案
相关问题