我正在维护一个简单的hadoop作业,该作业在HDFS中生成CSV文件作为输出。该作业使用TextOutputFormat。 我想将前导标题行添加到csv文件中(我知道部分文件是由不同的工作者创建的,如果每个文件都获得标题,那就不是问题了)。 怎么做到这一点?
编辑:级联可以help但乍一看我不想开始使用新框架
编辑:
所以我想为输出CSV文件添加标题。列数 是确定性的。 这是我的Reducer类'骨架:
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.output.MultipleOutputs;
public final class Reducer extends Reducer<Text, IntWritable, Text, IntWritable>
{
private MultipleOutputs<Text, IntWritable> mos;
private static final Text KEY_HOLDER = new Text();
private static final IntWritable VALUE_HOLDER = new IntWritable(1);
@Override
public void setup(final Context context)
{
mos = new MultipleOutputs<Text, IntWritable>(context);
}
@Override
public void cleanup(final Context context) throws IOException, InterruptedException
{
mos.close();
}
@Override
public void reduce(final Text key, final Iterable<IntWritable> values, final Context context)
throws IOException, InterruptedException
{
// [... some business logic ...]
mos.write(KEY_HOLDER, VALUE_HOLDER, "myFileName");
context.progress();
}
}
答案 0 :(得分:0)
您可以覆盖mapper / reducer类中的run(),以根据您的要求添加标题。如果你想在你的最后o / p中添加FisrtName和LastName。你可以使用下面的代码作为参考。
public void run(Context context) throws IOException, InterruptedException
{
setup(context);
column = new Text("ColumnName") ;
values = new Text("FirstName" + "\t" + "LastName") ;
context.write(column, values);
try
{
while (context.nextKey())
{
reduce(context.getCurrentKey(), context.getValues(), context);
Iterator<IntWritable> iter = context.getValues().iterator();
if(iter instanceof ReduceContext.ValueIterator)
{ ((ReduceContext.ValueIterator<IntWritable>)iter).resetBackupStore();
}
}
}
finally
{
cleanup(context);
}
}