map-reduce / hadoop在机器学习培训中的用途是什么?

时间:2013-08-29 16:37:32

标签: hadoop mapreduce machine-learning

Map-reduce / hadoop非常适合从各种资源中收集大量数据,并以我们想要的方式组织它们。

但是在谈到培训时,我的印象是我们必须同时将所有训练数据转储到算法(无论是SVN,Logistic回归还是随机森林)中,以便算法能够提出拥有一切的模型。可以在培训部分中使用map-reduce / hadoop帮助吗?如果是,一般情况如何?

1 个答案:

答案 0 :(得分:2)

是。有许多MapReduce实现,例如hadoop流,甚至还有一些简单的工具,如Pig,可用于学习。此外,还有基于Map / Reduce的分布式学习工具集,例如vowpal wabbit(https://github.com/JohnLangford/vowpal_wabbit/wiki/Tutorial)。这种方法的主要思想是对小部分数据进行训练(由HDFS分割),然后对每个节点的模型和换向进行平均。因此,模型直接从基于部分数据构建的子模型获得更新。