应用错误收集

我需要使用Hadoop Map Reduce排序10 GB的数据。输入文件的每一行都有字母数字字符串。

例如：

dfslkjf
341dsfdgf
ieoritpo4
fdlgkd

我正在使用单节点群集。

我计划使用Hadoop流。

我在python中原型化了mapper和reducer。映射器：将该块的每个单词作为键，值不重要

随机排序阶段将根据密钥对数据进行排序

减速器：使用单个reducer打印从标准输入的每一行读取的每个键。由于随机排序和排序会将所有键按排序顺序放置，因此reducer将按排序顺序输出数据。

我使用了一个小的数据集和linux管道来测试产生正确排序输出的解决方案。我没有看到这种针对Hadoop的方法存在缺陷，请让我知道我对解决方案的了解中是否缺少某些东西。