标签: java mahout sequencefile
我已经在网上搜索了很多内容,但我一无所获,尽管我觉得它必须有点普遍。我过去曾使用Mahout的seqdirectory命令转换包含文本文件的文件夹(每个文件是一个单独的文档)。但是在这种情况下,我有一个非常大的文本文件,其中每行都是一个文档。如何将这个大文件转换为SequenceFile格式,以便Mahout能够理解每一行应该被视为一个单独的文档?非常感谢您的帮助。
答案 0 :(得分:1)
是的,如何做到这一点并不是很明显或非常直观,尽管(幸运的是你:P)我已经在堆栈中多次回答了这个确切的问题,例如here。看看;)