嗨我可以建议从scala countvectorizer输出的映射:([label,(nVocab,[i1,i2,...],[c1,c2,...])])到libsvm格式:(标签, : : ...) ?
如果您将输入作为字符串,我不知道在哪里拆分以获取字段,对于初学者。
或者,是否有scala实用程序? 谢谢, KVD
答案 0 :(得分:0)
我把它搞砸了。 countVectorizer输出可以转换为sparseVecor数据类型,其具有[size,[indices],[values]]。索引和值数组可以压缩并以libsvm格式输出。
val countVec = vec(1).asInstanceOf [SparseVector]
经过进一步探索后发现我并不需要这种转换。我可以使用classLabel和sparseVector创建一个Labeled点,并直接传递给机器学习对象。
谢谢, KVD