应用错误收集

时间：2013-04-18 21:04:43

标签： python mapreduce

我有一些问题可能适用于Map-Reduce模型。我想尝试实现它们，但在这个阶段我不想去安装像Hadoop或Disco这样的重量级系统。

是否有一个用于map-reduce的轻量级Python框架，它使用常规文件系统来输入，临时文件和输出？

答案 0 :(得分：11)

专门针对大数据的Coursera课程建议使用这些轻量级的python Map-Reduce框架：

为了让您快速入门，请尝试以下示例：

（提示：此示例中的[服务器地址]使用localhost）

答案 1 :(得分：5)

http://pythonhosted.org/mrjob/非常适合快速开始使用本地计算机，基本上只需要一个简单的内容：

pip install mrjob

答案 2 :(得分：3)

http://jsmapreduce.com/ - 浏览器中的mapreduce;在Python或Javascript中;无需安装

答案 3 :(得分：1)

结帐Apache Spark。它是用Java编写的，但它也有一个Python API。您可以在您的计算机上本地尝试，然后在需要时，您可以轻松地在群集上分配计算。

答案 4 :(得分：1)

它用于教育用途。目前不是并行运行，而是接受标准Python对象作为IO。

答案 5 :(得分：0)

所以这是很久以前的问题，但我在周末完成了mapreduce的实现：重新映射。

使用最少的依赖项安装非常简单，如果一切顺利，您应该能够在5分钟内运行测试运行。

整个处理管道工作正常，但提交和监控工作仍在进行中。