我目前正在处理.libsvm格式的数据集,并且无法在这些数据集上使用不同的机器学习算法,例如kNN,SVM,随机森林。
以.csv格式应用它们很容易,但是该方法不适用于.libsvm文件。
请说明方法。
答案 0 :(得分:1)
LIBSVM格式已公开标准化,可以说比csv更好地解析/使用。基本格式可以参见here。
但是您不必自己做。
您可以使用sklearn来阅读这些内容,而它们是load_svmlight_file:
将svmlight / libsvm格式的数据集加载到稀疏的CSR矩阵中
但是要使自己熟悉稀疏矩阵,尽管在使用sklearn时,大多数东西都可以工作而无需关心密集与稀疏。
对于这种格式相对于svmlight格式的背景/演变,我了解不多,但是sklearn的文档说它们是相同的,我可以通过经验丰富的ob能够支持所有libsvm datasets来支持这一点。具有上述功能。