应用错误收集

时间：2011-02-21 17:36:29

标签： mongodb amazon-web-services partitioning elastic-map-reduce mrjob

我正在研究使用Yelp的MRJob来计算使用Amazon的Elastic Map Reduce。在计算密集型工作期间，我需要读取和写入大量数据。每个节点应该只获取一部分数据，我对如何完成这一点感到困惑。目前，我的数据位于MongoDB中，并存储在持久的EBS驱动器上。

使用EMR时，如何通过节点分解数据？如何告诉MRJob将数据分区的关键是什么？ MRJob EMR documentation隐含了分解步骤：如果您打开文件或连接到S3键值存储，它如何划分键？是否假设输入是序列并在此基础上自动对其进行分区？

也许有人可以解释输入数据如何使用MRJob wordcount example传播到节点。在该示例中，输入是文本文件 - 它是复制到所有节点，还是由一个节点串行读取并分成多个部分？

答案 0 :(得分：1)

该示例假定您正在处理文本文件。我不确定你是否可以传入一个参数来使用MongoDB hadoop驱动程序。

你想在这做什么？我正在研究MongoDB hadoop驱动程序，我正在寻找示例和测试用例。