Question

我正在处理非结构化文本文件。我想通过hadoop处理它但我从文件.pls帮助中提取所需数据时遇到问题。

我的文件看起来像：

我希望输出像;

Answer 1

众所周知，MapReduce可以忽略无效数据，至少您可以实现自己的map来执行此操作。

例如，分隔符为\n，应接受具有指定格式的每一行，否则将被忽略。在这种情况下，每行包含6个以空格分隔的列应该正常处理。

//map @Override public void map(K key, V value, Context context) throws IOException, InterruptedException { // value contains line content, // verify value, only those valid lines should be accepted. }

Answer 2

您可以在PIG中使用RANK来过滤标题。试试这个。

A = LOAD 'file' as (line:chararray);
B = RANK A;
C = FILTER B BY rank_A > 5;
D = FOREACH C GENERATE line;
DUMP D;

如何通过hadoop处理非结构化文本数据（PIG / MapReduce）

2 个答案: