我是Hadoop和Map Reduce Programming的新手。我有一个数据集,其中包含有关943个用户的电影的评分。每位用户最多可评价20部电影。现在我希望我的Mapper的输出是用户ID和一个自定义类,它将有两个Movie列表(用户评价的电影ID)和评级(每个电影的评级)。但我不确定如何在这种情况下从Map方法输出这些值。代码片段如下: -
public class UserRatings implements WritableComparable{
private List<String> movieId;
private List<String> movieRatings;
public List<String> getMovieRatings() {
return movieRatings;
}
public void setMovieRatings(List<String> movieRatings) {
this.movieRatings = movieRatings;
}
public List<String> getMovieId() {
return movieId;
}
public void setMovieId(List<String> movieId) {
this.movieId = movieId;
}
@Override
public int compareTo(Object o) {
return 0;
}
@Override
public void write(DataOutput dataOutput) throws IOException {
dataOutput.write
}
@Override
public void readFields(DataInput dataInput) throws IOException {
}
}
这里是地图方法
public class GenreMapper extends Mapper<LongWritable,Text,Text,IntWritable> {
public void map(LongWritable key, Text value,Context context) throws IOException, InterruptedException{
// Logic for parsing the file and exracting the data. Can be ignored...
String[] input = value.toString().split("\t");
Map<String,UserRatings> mapData = new HashMap<String,UserRatings>();
for(int i=0;i<input.length;i++){
List<String> tempList = new ArrayList<String>();
UserRatings userRatings = new UserRatings();
tempList.add(input[3]);
List<String> tempMovieId = new ArrayList<String>();
tempMovieId.add(input[1]);
for(int j=4;j<input.length;j++){
if(input[i].contentEquals(input[j])){
tempMovieId.add(input[j+1]);
tempList.add(input[j+3]);
j = j+4;
}
}
userRatings.setMovieId(tempMovieId);
userRatings.setMovieRatings(tempList);
mapData.put(input[i],userRatings);
}
// context.write();
}
}
答案 0 :(得分:2)
我认为你错过了mapper函数的重点。映射器不应在其输出上发出列表。映射器的关键点是产生一个元组,reducer将捕获并关于键进行必要的计算以产生良好的输出,因为mapper的输出格式应该尽可能简单。
在这种情况下,我认为正确的方法是在映射器上发出一对键值对:
user_id,custom_class
自定义类必须只有movie_id和评级,而不是列表。更具体地说,我需要知道你对这个地图缩小的最终结果有什么要求。请注意,如果需要,可以运行第二个地图缩小第一个结果。
答案 1 :(得分:0)
您可以考虑使用Text和MapWritable作为映射器类的键值对。
此处用户ID将是键(文字),并且根据用户的电影ID和评级组成的Mapwritable将是值对象。
Mapwritable值对象应该以MovieId作为键,用户评级作为值。
考虑这个示例代码段,
MapWritable result=new MapWritable();
result.put(new Text("movie1") , new Text("user1_movie1_rating"));
result.put(new Text("movie2") , new Text("user1_movie2_rating"));
Text key = new Text("user_1_id");
context.write(key, result);
希望这有帮助:) ..