在skicit-learn中创建标签传播标签

时间:2016-05-27 14:22:23

标签: python machine-learning scikit-learn tf-idf supervised-learning

我在skicit中使用Label Propagation-学习为未知的标签寻找标签

我的输入是' data_list'包含400,000个梵文语句,如:

[' tatra yad tad mahABAga SaMkara arDa kAyin', ' gam sa bala SrImant duryoDana ariMdama', ' Sigru pattra Bava SAka rucya vAta kaPa apaha']

我给了这个' data_list'作为Tfidf矢量化器fit_transform方法的参数,得到一个稀疏矩阵' X'

链接:http://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html#sklearn.feature_extraction.text.TfidfVectorizer.fit_transform

    X = fit_transform(data_list)
然后我给了这个矩阵' X'到TruncatedSVD获得一个矩阵' X_reduced'这是尺寸减少的

    svd = TruncatedSVD()
    X_reduced = svd.fit_transform(X)

现在使用' fit'标签传播的功能我需要给出两个参数1)上面的矩阵X_reduced和2)带标签的矩阵

链接:http://scikit-learn.org/stable/modules/generated/sklearn.semi_supervised.LabelSpreading.html#sklearn.semi_supervised.LabelSpreading.fit

    label_spread = LabelSpreading()
    label_spread.fit(X_reduced,labels) 
    #fit(X, y)
    #where X : array-like, shape = [n_samples, n_features]
    #y : array_like, shape = [n_samples]

为了创建标签,我有一个单词列表(这些是在上面的梵文句子中出现的单词),其中包含名称' unique_words'标签为' 1'或者' 0' 0和' -1'对于不在列表中的所有其他单词

我面临的问题是X_reduced没有。行(n_samples)=否。梵文句子,即没有。上面的数据列表' data_list' 我应该创建一个与X_reduced

相同行数的标签矩阵

那么如何创建标签矩阵以作为参数来适应'标签传播在skicit-learn中的作用

0 个答案:

没有答案