如果我在一台机器上运行它,我有一个需要很长时间(生物学和蛋白质相关)的程序。但是,如果我将它分成块,我可以运行它们并结合结果。
Hadoop可以这样做吗?我需要一堆电脑来运行这样的东西吗?我应该如何开始?
答案 0 :(得分:1)
你的问题非常笼统。是的,hadoop是进行分布式计算的可用框架之一。但是,不可能知道这是否是解决问题的正确方法。
您必须考虑的第一件事是您的问题是否可以通过分配计算来解决。如果您可以在不同节点之间拆分计算和数据,那么这应该可行。 (看看Map / reduce方法)
首先,尝试http://hadoop.apache.org/docs/current/,Burhan的链接或其他谷歌......
然后,你可以选择一个发行版(我喜欢cloudera),它更容易安装。
是的,显然你需要几台机器,这就是重点。