云提供商使用什么来实现简单的并行算法?

时间:2013-01-11 11:48:21

标签: azure indexing cloud bigdata inverted-index

我有一项任务:加快inverted index的当前实施。在我看来,最好的方法是在云中运行它:

  1. 将输入文本分成几个部分(或只是抓取几个不同的文本文件)
  2. 将文本发送到节点
  3. 在每个节点上运行算法以获取不同的输入数据
  4. 收集结果并合并
  5. 我的问题是:实施它的最简单方法是什么?

    我目前的想法是:

    • 带有辅助角色的Windows Azure - 是否可以向节点发送不同的数据,然后合并它们?
    • Windows Azure和HPC Scheduler - 对于像这样的任务来说,它不是太强大了吗?我担心配置和成本(新节点=新员工角色?)
    • 使用任何其他云,如亚马逊或谷歌 - 我想用c#编码,我熟悉微软技术,所以我有点害怕它们

    请给我任何建议,你将如何实现这一目标,我是云计算的新手(虽然我有一些基础知识,如mpi,soa,cuda,azure basics)

1 个答案:

答案 0 :(得分:1)

这是MapReduce的案例。

事实上,Hadoop是根据Nutch(反向索引)的需要而创建的

您可以使用:

a)Amazon's Elastic MapReduce

b)Signup for HDInsights on Azure

还有其他提供商(picloud是我想到的那个)