全部。 我有一个小集群,一个节点,有RAID存储,还有几个强大的无盘计算节点,通过PXE启动。全部由IfiniBand连接(和1G以太网用于启动)。 我需要在这个集群上部署hadoop。 建议我部署的最佳配置 据我所知,默认配置意味着所有计算节点都有自己的小存储,但在我的情况下(如果我有NFS共享),它将通过网络制作太多的副本。我已经遇到了几个关于hadoop与Lustre的链接,但它经常用于大群集,我还不知道如何配置它
答案 0 :(得分:1)
您所描述的内容可能是可能的,但是 - 您不是在使用Hadoop功能 - 而是试图找到解决方法。
移动计算比移动数据便宜 - 数据位置是Hadoop的基石之一,这也是集群中所有工作节点也是存储的原因节点。 Hadoop尝试在已处理块所在的节点上进行尽可能多的计算,以避免网络拥塞。
https://developer.yahoo.com/hadoop/tutorial/module1.html
然后,Hadoop框架使用来自分布式文件系统的知识,在数据/记录的位置附近调度这些进程。由于文件作为块分布在分布式文件系统中,因此在节点上运行的每个计算进程都对数据的子集进行操作。根据节点的位置选择节点操作的数据:大多数数据从本地磁盘直接读入CPU,减轻网络带宽的压力并防止不必要的网络传输。这种将计算转移到数据的策略,而不是将数据移动到计算中,使Hadoop能够实现高数据局部性,从而实现高性能。
MapReduce往往会生成大量临时文件,因此每个节点15 GB的存储空间不足。