应用错误收集

我们即将购买新硬件来运行我们的分析，并且想知道我们是否做出了正确的决定。

设置：
我们是一个生物信息学实验室，负责处理DNA测序数据。我们的领域最大的问题是数据量而不是计算量。单个实验将很快进入Gb的10s-100s，我们通常会同时进行不同的实验。显然，mapreduce方法很有意思（参见http://abhishek-tiwari.com/2010/08/mapreduce-and-hadoop-algorithms-in-bioinformatics-papers.html），但并非所有软件都使用这种范例。此外，某些软件使用ascii文件作为输入/输出，而其他软件使用二进制文件。

我们可能会购买什么：
我们可能购买的机器将是具有32个内核和192Gb RAM的服务器，链接到NAS存储（> 20Tb）。对于我们的许多（非mapreduce）应用程序来说，这似乎是一个非常有趣的设置，但是这样的配置会阻止我们以有意义的方式实现hadoop / mapreduce / hdfs吗？

非常感谢，
一月

你有一个有趣的配置。您使用的NAS存储的磁盘IO是什么？

根据以下内容做出决定： Map Reduce范例用于解决处理大量数据的问题。基本上，RAM比磁盘存储更昂贵。您无法将所有数据保存在RAM中。磁盘存储允许您以更低的成本存储大量数据。但是，从磁盘读取数据的速度不是很高。 Map Reduce如何解决这个问题？ Map Reduce通过在多台计算机上分发数据来解决此问题。现在，您可以并行读取数据的速度比单个存储磁盘的速度快。假设磁盘IO速度为100 Mbps。使用100台机器，您可以100 * 100 Mbps = 10Gbps读取数据。

通常处理器速度不是瓶颈。相反，磁盘IO在处理大量数据时是一大瓶颈。

我觉得它可能效率不高。

Hadoop，硬件和生物信息学

1 个答案: