我打算为研究生项目分析Hadoop的MapReduce的一部分,重点关注网络相关方面。我已经找到了一些相同的论文,但我想知道是否有一些众所周知的研究领域,并且一些现有的资源也是相同的。
我不需要打破任何新的理由。即使我可以重现任何众所周知的现有网络利用模式,也足够了。
答案 0 :(得分:0)
提出MapReduce场景中可能出现的整个网络相关瓶颈列表的最佳方法是了解每个守护程序如何相互协作。
了解MapReduce作业的整个流程。你可以在我写回来的博客文章中找到这个 - Introducing Hadoop
JobTracker和TaskTracker是实际在Hadoop环境中工作的守护进程。因此,调查JobTracker如何分配任务以及TaskTracker如何响应是一个在网络问题时容易出现瓶颈的区域。
MapReduce“Shuffle and Sort”阶段是您可以查找的另一个关键字,其中网络问题可能会导致严重的延迟。
此外,您必须已经知道群集中的每个节点都需要密码少ssh访问其他节点。这是另一个可能因网络问题而受到影响的领域。
我没有任何指向的具体链接,但我希望我能指出正确的方向。