标签: csv vectorization mahout
我有一个大型CSV文件,其中每行包含文本格式的(id,description)。我想使用“seq2sparse”将每一行转换为向量,然后运行“rowsimilarity”以生成文本相似性结果。
问题是我需要将CSV文件转换为SEQ某种方式使用“seq2sparse”,现有方法“seqdirectory”采用文本文件目录而不是CSV文件。无论如何要做到这一点?