从文本文件构建2D数据集

时间:2014-07-22 17:21:58

标签: python scikit-learn svm

在scikit-learn中,我必须在文本文档集上实现线性SVM分类器。有关特征提取的文档显示了如何仅转换可用的数据集,虹膜等。我需要上传我自己的文本文件集并进行转换,以便估计器可以使用它。为此,我试图使用它。

    fil = datasets.load_files('/home/ayushi/Dropbox/Bundeli/corpus/wob/sklearn',    description=None, categories=None, load_content=True, shuffle=True, encoding='utf-8', charset=None, charset_error=None, decode_error='strict', random_state=0)

    vec = DictVectorizer()
    vec.fit_transform(fil).toarray()

现在我收到此错误

    Traceback (most recent call last):
    File "<stdin>", line 1, in <module>
    File "/usr/lib/python2.7/dist-packages/sklearn/feature_extraction/dict_vectorizer.py", line 143, in fit_transform
return self.transform(X)
    File "/usr/lib/python2.7/dist-packages/sklearn/feature_extraction/dict_vectorizer.py", line 231, in transform
    values.append(dtype(v))
    ValueError: could not convert string to float: gaari

Gaari是一种类型的名称,需要将其分类为文本。

此外,当我尝试这个时:http://scikit-learn.org/stable/auto_examples/svm/plot_iris.html#example-svm-plot-iris-py

使用load_files()获取我自己的数据并完全遵循一切,我收到了这个错误。

    TypeError : list indices should be integer not tuples

但是,我仍然需要将其转换为2D数据集。有没有人有任何建议?

1 个答案:

答案 0 :(得分:1)

sklearn.datasets.load_files仅将文件加载到内存中,生成字符串,而DictVectorizer希望将dicts作为输入。您需要一个执行实际特征提取的函数:

data = datasets.load_files('/home/ayushi/Dropbox/Bundeli/corpus/wob/sklearn',
                           encoding='utf-8')
vec = DictVectorizer()
X = vec.fit_transform(extract_features(f) for f in data.data)

其中extract_features是一个特定于数据集的函数,它接受一个字符串并生成一个dict映射功能名称到特征值。