Mahout CSV到SEQ用于文本向量化

时间:2014-08-14 15:29:43

标签: csv vectorization mahout

我有一个大型CSV文件,其中每行包含文本格式的(id,description)。我想使用“seq2sparse”将每一行转换为向量,然后运行“rowsimilarity”以生成文本相似性结果。

问题是我需要将CSV文件转换为SEQ某种方式使用“seq2sparse”,现有方法“seqdirectory”采用文本文件目录而不是CSV文件。无论如何要做到这一点?

0 个答案:

没有答案