Mahout:将一个大文本文件转换为SequenceFile格式

时间:2012-10-30 18:42:34

标签: java mahout sequencefile

我已经在网上搜索了很多内容,但我一无所获,尽管我觉得它必须有点普遍。我过去曾使用Mahout的seqdirectory命令转换包含文本文件的文件夹(每个文件是一个单独的文档)。但是在这种情况下,我有一个非常大的文本文件,其中每行都是一个文档。如何将这个大文件转换为SequenceFile格式,以便Mahout能够理解每一行应该被视为一个单独的文档?非常感谢您的帮助。

1 个答案:

答案 0 :(得分:1)

是的,如何做到这一点并不是很明显或非常直观,尽管(幸运的是你:P)我已经在堆栈中多次回答了这个确切的问题,例如here。看看;)