我很想找几个主题,谢谢。
答案 0 :(得分:1)
MergeSort是一个很棒的/简单的开始。您也可以使用generating word counts for all words in a file。一个很好的数据来源是Project Gutenberg公共领域书籍库(你总是可以将它们中的一些连在一起)。
如果你想要更高级的东西,但与字数一样,你可以编写一个非常简单的分布式拼写检查器。 Peter Norvig是一个用Python编写的拼写检查器的simple demonstration。一个很好的练习是扩展此算法以分布式方式对文件进行操作。
答案 1 :(得分:1)
您有一些项目here
有一些很好的有趣的小型hadoop项目的例子。一切都描述得很好,另外你可以找到源代码和所有需要的理论。