标签: python mongodb hadoop mapreduce hadoop-streaming
步骤1-我有一个基于可变时间的hadoop流式传输作业 处理的数据量第2步 - 一旦完成工作,我需要 将所有数据转储导入mongodb并创建一个平面csv文件 它的
问题 有没有什么方法可以使用hadoop流式传输第2步到第1步,并避免手动执行第2步?
答案 0 :(得分:0)
我建议使用https://github.com/Yelp/mrjob或https://github.com/klbostee/dumbo之类的内容。专门针对mrjob和您的问题http://packages.python.org/mrjob/job.html#writing-multi-step-jobs