我是Hadoop和Mahout的新手。 我想知道如何将包含一组向量的简单文本文件转换为序列文件。我已经尝试了MR框架并将outputFormat更改为SequenceFileOutputFormat,并得到以下输出
SEQorg.apache.hadoop.io.Textorg.apache.hadoop.io.Text . U_v ; Vs ' sample01 2 3 4 5sample1 6 7 8 9 10sample211 12 13 14 15sample316 17 18 19 20
那些朦胧的字符是二进制文件所以无法读取,但我的问题是如何获取sample0 1 2 3 4,其他类似于SequenceFile格式(二进制格式)。
我相信可以通过更改mapper函数的输出来完成,但我无法弄明白。
- 谢谢你的时间。