将Scala countvectorizer输出转换为libsvm格式

时间:2017-01-23 21:59:48

标签: scala format libsvm countvectorizer

嗨我可以建议从scala countvectorizer输出的映射:([label,(nVocab,[i1,i2,...],[c1,c2,...])])到libsvm格式:(标签, : : ...) ?

如果您将输入作为字符串,我不知道在哪里拆分以获取字段,对于初学者。

或者,是否有scala实用程序? 谢谢, KVD

1 个答案:

答案 0 :(得分:0)

我把它搞砸了。 countVectorizer输出可以转换为sparseVecor数据类型,其具有[size,[indices],[values]]。索引和值数组可以压缩并以libsvm格式输出。

val countVec = vec(1).asInstanceOf [SparseVector]

经过进一步探索后发现我并不需要这种转换。我可以使用classLabel和sparseVector创建一个Labeled点,并直接传递给机器学习对象。

谢谢, KVD