我想写MapReduce(可能是多轮!)到
1. Sample N records from Large data - for say X RandomTree
2. Train each tree (totally X)
3. And then test records on all these trees
随后,
for X = 0 to 199:
- sample N records from Large data
- Train this tree
- test for all test records
这是我的作业问题,所以我只是需要想法..!
我不确定
答案 0 :(得分:1)
这取决于你的工作形式。
正式映射器无法准确地对N个记录进行采样。因为它无法保留计数器,并且它不知道总数据大小。 Hadoop中的实用映射器当然可以。但他可能不会知道他将收到多少记录。
但正如你所说这是一项功课,我认为你不需要确保它正好是N. 特别是,在您抽样时,准确记录N条记录有什么好处?
尝试以下方法: