将文本文件转换为序列文件

时间:2014-01-29 07:25:43

标签: hadoop sequencefile

我是Hadoop和Mahout的新手。 我想知道如何将包含一组向量的简单文本文件转换为序列文件。我已经尝试了MR框架并将outputFormat更改为SequenceFileOutputFormat,并得到以下输出

  

SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text . U_v ; Vs ' sample01 2 3 4 5sample1   6 7 8 9 10sample211 12 13 14 15sample316 17 18 19 20

那些朦胧的字符是二进制文件所以无法读取,但我的问题是如何获取sample0 1 2 3 4,其他类似于SequenceFile格式(二进制格式)。

我相信可以通过更改mapper函数的输出来完成,但我无法弄明白。

- 谢谢你的时间。

0 个答案:

没有答案