分布式计算最常见的用途是什么?

时间:2012-08-21 05:11:06

标签: hadoop mapreduce cluster-computing distributed-computing hpc

我写了一个非常简单的分布式计算平台(基于Map / Reduce范例),我正在编写一些演示和展示。我有一个非常小的团队,必须优先考虑我将首先编写的演示。

要优先排序我需要对演示进行排序,大约70%是分布式计算的相关,常见,重要用例,30%易于编写。

到目前为止,我的订购方式如下:

  1. 使用蒙特卡洛发现pi数字
  2. 与蒙特卡罗的数值整合
  3. 大矩阵乘法(密集矩阵)
  4. 线性回归
  5. 大矩阵反转
  6. 多次回归
  7. 排序
  8. 聚类(K-Means)
  9. 群集(Hierarquical)
  10. 排名第一,因为写了10分钟,虽然它完全没用(我不确定,但我认为没有很多人试图找到更多的数字到pi)。

    由于我的平台的性质,它将更多地发挥在当然令人尴尬的平行,而不是受限制或减少主导的事物上。

    你会如何改变我的名单?你会加什么?排序在企业界是否有用,还是仅用于对分布式计算平台进行基准测试?

2 个答案:

答案 0 :(得分:4)

您的列表表明您没有区分并行计算和分布式计算。这并不一定是错的,但是当看到正在执行的并行计算(例如您的项目2 - 5)时,寻找分布式计算平台卓越性的演示的人可能会非常热情。

排序对于数据无处不在:大型企业,小型企业,桌面抽屉,Googlesphere。搜索也是如此,这是您列表中的一个令人惊讶的遗漏。立即引起我注意的另一个遗漏是任何类型的数据融合,合并大型数据集以从其交叉点获取信息,超出可以从数据集中单独提取的信息。

答案 1 :(得分:2)

我是Mark,因为你正在混合分布式计算和HPC。以下是对您的每个主题的一些评论:

(1)有人试图尽可能多地计算Pi的数字,但蒙特卡罗算法在那里完全没用,因为它的精度与试验次数的平方根成比例,所以为了得到一个更精确的十进制数字,您将大致需要100倍的试验。还有其他算法 - 看看你是否可以使用Map / Reduce实现其中的一些算法。

(2)这个很好,虽然很少使用 - 与(1)精度相同的问题。

(5)纯矩阵求逆很少进行,主要是因为数值不稳定。如何解决密集的线性方程组呢?

我想说你现在缺少M / R处理的一个主要用途,即图形处理(阅读:社交和其他网络/流分析)。另外一些更一般的优化问题可能是好的,例如遗传算法。