如何保存scikit-learn使用的稀疏数据集?

时间:2015-05-14 17:36:59

标签: java python scikit-learn

我正在编写一个java文本挖掘工具。我想用scikit-learn分类器测试我的数据集。我正在使用Java动态创建特征向量,并且向量非常稀疏。我想将稀疏矢量/数据集导出为可以轻松地与scikit-learn一起使用的格式。我已经用Java编写了一个导出函数来以ARFF格式导出数据集,但我发现用scikit-learn无法读取它。 ARFF文件有一些python解析器,但它们不支持稀疏数据集。

那么如何将我的数据集导出为scikit-learn可用的格式?即哪种格式?!

1 个答案:

答案 0 :(得分:0)

次优但简单的方法是使用libsvm / svmlight格式,这是一种纯文本格式

label feature_index:feature_value feature_index:feature_value

如果您的数据不是太大,这可以正常工作。 您可以使用sklearn.datasets.load_svmlight_file读取它。

我有点惊讶在python中的arff读者不支持稀疏数据。你试过scipy.io.arff.loadarff吗?