是否有一个使用常规文件系统的简单Python map-reduce框架?

时间:2013-04-18 21:04:43

标签: python mapreduce

我有一些问题可能适用于Map-Reduce模型。我想尝试实现它们,但在这个阶段我不想去安装像Hadoop或Disco这样的重量级系统。

是否有一个用于map-reduce的轻量级Python框架,它使用常规文件系统来输入,临时文件和输出?

6 个答案:

答案 0 :(得分:11)

专门针对大数据的Coursera课程建议使用这些轻量级的python Map-Reduce框架:

为了让您快速入门,请尝试以下示例:

https://github.com/michaelfairley/mincemeatpy/zipball/v0.1.2

(提示:此示例中的[服务器地址]使用localhost)

答案 1 :(得分:5)

http://pythonhosted.org/mrjob/非常适合快速开始使用本地计算机,基本上只需要一个简单的内容:

pip install mrjob

答案 2 :(得分:3)

http://jsmapreduce.com/ - 浏览器中的mapreduce;在Python或Javascript中;无需安装

答案 3 :(得分:1)

结帐Apache Spark。它是用Java编写的,但它也有一个Python API。您可以在您的计算机上本地尝试,然后在需要时,您可以轻松地在群集上分配计算。

答案 4 :(得分:1)

MockMR - https://github.com/sjtrny/mockmr

它用于教育用途。目前不是并行运行,而是接受标准Python对象作为IO。

答案 5 :(得分:0)

所以这是很久以前的问题,但我在周末完成了mapreduce的实现:重新映射。

https://github.com/gtoonstra/remap

使用最少的依赖项安装非常简单,如果一切顺利,您应该能够在5分钟内运行测试运行。

整个处理管道工作正常,但提交和监控工作仍在进行中。