.NET和Hadoop - 我应该知道/学习什么以及可以使用什么?

时间:2011-11-24 12:47:48

标签: .net apache linq hadoop

信息

我的问题是关于.NET中的BigData。 BigData用于存储和查询大量数据(Facebook,Google,Twitter等)。 BigData的例子有MapReduce,Hadoop,Dryad等。

微软放弃了他们的Dryad(DryadLinq)替代Hadoop(Dryadthe article),所以我想为它做好准备以及与之有关的所有事情。

我已经知道的

现在有什么用?

Hadoop Connector

SQL Server 2012 RC (don't use in production :))

Microsoft Information on Big Data

我应该对发布和开发有更多了解?

Register on the TechPreview

问题

问题1 : 我应该了解哪些Hadoop不是.NET平台独有的? (如何查询,特定模式,体系结构......)并且将是有用的(在.NET环境中)

问题2 : 是否有比我已经知道的更多关于.NET平台中Hadoop的信息?

2 个答案:

答案 0 :(得分:10)

这是一个模糊的问题所以这里有一个模糊的答案:)

Hadoop本身就是一个在集群中运行map-reduce作业的工具,它针对性能进行了高度优化,并且通过以一种易于使用而不会产生的方式分发数据来完成大量此类优化。 I / O处罚。

为此您应该阅读有关HDFS和内部解释如何完成的内容,简而言之,输入数据在节点中聚集在一起以在本地运行进程并按顺序读取(这是HDFS的属性/限制。)

通过这种方式,您可以输入“BigData”,并在群集内部以最有效的方式进行拆分和处理。

现在,除了Hadoop本身之外,有一些工具可以在它上面工作,允许你对数据执行高级抽象(map-reduce是最简单的过程之一)。

包括:

.Net的详细信息

对于Azure上的Hadoop(.Net),msdn here上有更多info here的介绍。与通过其平台构建Hadoop应用程序相关。 它现在只是CTP,但当然会发生变化。

这是关于Hadoop and MapReducecode

的另一篇关于Cloudera的博文

此外,还有一家公司经常提供有关Hadoop的信息:https://github.com/nathanmarz/storm,您应该经常查看,以获取更多信息。 有关更多信息,请查看上面链接的cloudera页面,您可以查看有关Hadoop的所有概念(虽然它非常先进)

我很确定这不是你想要的,但我不知道你想要什么,所以至少我希望你能检查一些可能有帮助的新项目。

还检查Storm:{{3}}它与Hadoop无关,但适用于Hadoop不适合的实时场景。

答案 1 :(得分:1)

目前,Hadoop没有太多特定于.NET的东西。您只需按照常规Hadoop教程进行操作即可。 SQL Server连接器允许您只导入输入数据并将结果导出为更容易访问应用程序其余部分的格式。

您可以在Windows上运行Hadoop。但是,它需要Cygwin(类似于Unix的环境和Microsoft Windows的命令行界面)。

基本上,要使用Hadoop,您无论如何都需要学习Linux。