我需要使用Hadoop Map Reduce排序10 GB的数据。输入文件的每一行都有字母数字字符串。
例如:
dfslkjf
341dsfdgf
ieoritpo4
fdlgkd
我正在使用单节点群集。
我计划使用Hadoop流。
我在python中原型化了mapper和reducer。 映射器: 将该块的每个单词作为键,值不重要
随机排序阶段将根据密钥对数据进行排序
减速器: 使用单个reducer打印从标准输入的每一行读取的每个键。由于随机排序和排序会将所有键按排序顺序放置,因此reducer将按排序顺序输出数据。
我使用了一个小的数据集和linux管道来测试产生正确排序输出的解决方案。我没有看到这种针对Hadoop的方法存在缺陷,请让我知道我对解决方案的了解中是否缺少某些东西。