答案 0 :(得分:0)
众所周知,MapReduce
可以忽略无效数据,至少您可以实现自己的map
来执行此操作。
例如,分隔符为\n
,应接受具有指定格式的每一行,否则将被忽略。在这种情况下,每行包含6个以空格分隔的列应该正常处理。
//map
@Override
public void map(K key, V value, Context context)
throws IOException, InterruptedException
{
// value contains line content,
// verify value, only those valid lines should be accepted.
}
答案 1 :(得分:0)
您可以在PIG中使用RANK来过滤标题。试试这个。
A = LOAD 'file' as (line:chararray);
B = RANK A;
C = FILTER B BY rank_A > 5;
D = FOREACH C GENERATE line;
DUMP D;