我正在编写一个java文本挖掘工具。我想用scikit-learn
分类器测试我的数据集。我正在使用Java动态创建特征向量,并且向量非常稀疏。我想将稀疏矢量/数据集导出为可以轻松地与scikit-learn
一起使用的格式。我已经用Java编写了一个导出函数来以ARFF格式导出数据集,但我发现用scikit-learn
无法读取它。 ARFF文件有一些python解析器,但它们不支持稀疏数据集。
那么如何将我的数据集导出为scikit-learn
可用的格式?即哪种格式?!
答案 0 :(得分:0)
次优但简单的方法是使用libsvm / svmlight格式,这是一种纯文本格式
label feature_index:feature_value feature_index:feature_value
如果您的数据不是太大,这可以正常工作。 您可以使用sklearn.datasets.load_svmlight_file读取它。
我有点惊讶在python中的arff读者不支持稀疏数据。你试过scipy.io.arff.loadarff吗?