目前,Hadoop通过将任务分配给包含数据的节点或接近执行的任务(例如,相同的机架)来实现数据局部性。但是,我想知道是否可以在云计算中应用相同的概念,其中Hadoop部署在虚拟机集上,因为有关物理层的信息,例如,当前托管这些虚拟机的物理机可能无法使用。
答案 0 :(得分:1)
在大多数云环境中,您完全失去了Hadoop的数据位置优势,因为存储通常是网络连接到您的VM。
Hadoop有一些虚拟扩展,允许用户指定共享相同物理基础设施(即存储和计算)的虚拟主机,这样Hadoop可以“虚拟感知”底层硬件 - 但这些只是存在于1)本地私有云或(更可能)2)Hadoop PaaS环境。