我有一个CSV数据集,它是一组键值对,数据集很大,值是整数和短字符串的混合(即不是冗长的文本,而是关键词)我希望使用Mahout的聚类算法处理它。
问题在于将此CSV转换为可由Mahout使用的向量。我一直在阅读“Mahout In Action”,并且似乎有两个矢量化选项,使用带有Mahout的DenseVector,RandomAccessSparseVector和SequentialAccessSparseVector实现的数值或使用向量空间模型来矢量化文本文档。
我想要对它进行矢量化的数据并不是真正的文本文档,但由于它是一个包含许多不同键和值的巨大数据集,因此很难将其映射到数值。在Mahout中使用这种数据进行矢量化的最佳方法是什么?
任何指针都会受到赞赏。
由于
答案 0 :(得分:0)
您最有可能需要RandomAccessSparseVector。
您可以轻松尝试不同的矢量表示,以查看哪种表现最佳。