将CSV转换为SequenceFile

时间:2012-08-16 20:25:21

标签: hadoop mahout sequencefile

我有一个CSV文件,我想将其转换为SequenceFile,我最终会用它来创建在群集作业中使用的NamedVectors。我一直在使用seqdirectory命令尝试创建一个SequenceFile,然后使用-nv选项将该输出提供给seq2sparse以创建NamedVectors。看起来这是一个大向量作为输出,但我最终希望我的CSV的每一行成为NamedVector。我哪里错了?

1 个答案:

答案 0 :(得分:2)

seqdirectory命令将每个文件作为文档,因此实际上,您只有一个文档,因此您只能获得一个向量。为了使其正常工作,您可以将CSV文件的每一行都设为文件本身,文档的是文件的名称,是其内容。尽管如此,如果你的语料库很大,这是非常不切实际的,因为磁盘读写可能会变得很慢。

在实践中,您最好关注我在此comment

中分享的链接