这是我的示例.csv文件。我怎样才能找到销量最高的那一周?
train.csv:
Store,Dept,Date,Weekly_Sales,IsHoliday
1,1,2010-02-05,24924.5,FALSE
1,1,2010-02-12,46039.49,TRUE
1,1,2010-02-19,41595.55,FALSE
1,1,2010-02-26,19403.54,FALSE
1,1,2010-03-05,21827.9,FALSE
1,1,2010-03-12,21043.39,FALSE
1,1,2010-03-19,22136.64,FALSE
1,1,2010-03-26,26229.21,FALSE
1,1,2010-04-02,57258.43,FALSE
答案 0 :(得分:0)
我不会为您提供代码,只是给您一个想法。
您可以找到每个映射器的本地最大销售额,并发出(sales,date)
对。为此,您可以使用映射器的清理方法,也可以使用组合器。
使用单个reducer (setNumReduceTasks(1))
,您将在reduce任务中获得所有局部最大值。保留reducer中的最大销售额并为其发出日期值。