我们即将购买新硬件来运行我们的分析,并且想知道我们是否做出了正确的决定。
设置:
我们是一个生物信息学实验室,负责处理DNA测序数据。我们的领域最大的问题是数据量而不是计算量。单个实验将很快进入Gb的10s-100s,我们通常会同时进行不同的实验。显然,mapreduce方法很有意思(参见http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.html),但并非所有软件都使用这种范例。此外,某些软件使用ascii文件作为输入/输出,而其他软件使用二进制文件。
我们可能会购买什么:
我们可能购买的机器将是具有32个内核和192Gb RAM的服务器,链接到NAS存储(> 20Tb)。对于我们的许多(非mapreduce)应用程序来说,这似乎是一个非常有趣的设置,但是这样的配置会阻止我们以有意义的方式实现hadoop / mapreduce / hdfs吗?
非常感谢,
一月
答案 0 :(得分:4)
你有一个有趣的配置。您使用的NAS存储的磁盘IO是什么?
根据以下内容做出决定: Map Reduce范例用于解决处理大量数据的问题。基本上,RAM比磁盘存储更昂贵。您无法将所有数据保存在RAM中。磁盘存储允许您以更低的成本存储大量数据。但是,从磁盘读取数据的速度不是很高。 Map Reduce如何解决这个问题? Map Reduce通过在多台计算机上分发数据来解决此问题。现在,您可以并行读取数据的速度比单个存储磁盘的速度快。假设磁盘IO速度为100 Mbps。使用100台机器,您可以100 * 100 Mbps = 10Gbps读取数据。
通常处理器速度不是瓶颈。相反,磁盘IO在处理大量数据时是一大瓶颈。
我觉得它可能效率不高。