应用错误收集

云提供商使用什么来实现简单的并行算法？

时间：2013-01-11 11:48:21

标签： azure indexing cloud bigdata inverted-index

我有一项任务：加快inverted index的当前实施。在我看来，最好的方法是在云中运行它：

将输入文本分成几个部分（或只是抓取几个不同的文本文件）
将文本发送到节点
在每个节点上运行算法以获取不同的输入数据
收集结果并合并

我的问题是：实施它的最简单方法是什么？

我目前的想法是：

带有辅助角色的Windows Azure - 是否可以向节点发送不同的数据，然后合并它们？
Windows Azure和HPC Scheduler - 对于像这样的任务来说，它不是太强大了吗？我担心配置和成本（新节点=新员工角色？）
使用任何其他云，如亚马逊或谷歌 - 我想用c＃编码，我熟悉微软技术，所以我有点害怕它们

请给我任何建议，你将如何实现这一目标，我是云计算的新手（虽然我有一些基础知识，如mpi，soa，cuda，azure basics）

1 个答案:

答案 0 :(得分：1)

这是MapReduce的案例。

事实上，Hadoop是根据Nutch（反向索引）的需要而创建的

您可以使用：

a）Amazon's Elastic MapReduce

或

b）Signup for HDInsights on Azure

还有其他提供商（picloud是我想到的那个）