我有一些问题可能适用于Map-Reduce模型。我想尝试实现它们,但在这个阶段我不想去安装像Hadoop或Disco这样的重量级系统。
是否有一个用于map-reduce的轻量级Python框架,它使用常规文件系统来输入,临时文件和输出?
答案 0 :(得分:11)
专门针对大数据的Coursera课程建议使用这些轻量级的python Map-Reduce框架:
为了让您快速入门,请尝试以下示例:
https://github.com/michaelfairley/mincemeatpy/zipball/v0.1.2
(提示:此示例中的[服务器地址]使用localhost)
答案 1 :(得分:5)
http://pythonhosted.org/mrjob/非常适合快速开始使用本地计算机,基本上只需要一个简单的内容:
pip install mrjob
答案 2 :(得分:3)
http://jsmapreduce.com/ - 浏览器中的mapreduce;在Python或Javascript中;无需安装
答案 3 :(得分:1)
结帐Apache Spark。它是用Java编写的,但它也有一个Python API。您可以在您的计算机上本地尝试,然后在需要时,您可以轻松地在群集上分配计算。
答案 4 :(得分:1)
MockMR - https://github.com/sjtrny/mockmr
它用于教育用途。目前不是并行运行,而是接受标准Python对象作为IO。
答案 5 :(得分:0)
所以这是很久以前的问题,但我在周末完成了mapreduce的实现:重新映射。
https://github.com/gtoonstra/remap
使用最少的依赖项安装非常简单,如果一切顺利,您应该能够在5分钟内运行测试运行。
整个处理管道工作正常,但提交和监控工作仍在进行中。