我在skicit中使用Label Propagation-学习为未知的标签寻找标签
我的输入是' data_list'包含400,000个梵文语句,如:
[' tatra yad tad mahABAga SaMkara arDa kAyin', ' gam sa bala SrImant duryoDana ariMdama', ' Sigru pattra Bava SAka rucya vAta kaPa apaha']
我给了这个' data_list'作为Tfidf矢量化器fit_transform方法的参数,得到一个稀疏矩阵' X'
X = fit_transform(data_list)
然后我给了这个矩阵' X'到TruncatedSVD获得一个矩阵' X_reduced'这是尺寸减少的
svd = TruncatedSVD()
X_reduced = svd.fit_transform(X)
现在使用' fit'标签传播的功能我需要给出两个参数1)上面的矩阵X_reduced和2)带标签的矩阵
label_spread = LabelSpreading()
label_spread.fit(X_reduced,labels)
#fit(X, y)
#where X : array-like, shape = [n_samples, n_features]
#y : array_like, shape = [n_samples]
为了创建标签,我有一个单词列表(这些是在上面的梵文句子中出现的单词),其中包含名称' unique_words'标签为' 1'或者' 0' 0和' -1'对于不在列表中的所有其他单词
我面临的问题是X_reduced没有。行(n_samples)=否。梵文句子,即没有。上面的数据列表' data_list' 我应该创建一个与X_reduced
相同行数的标签矩阵那么如何创建标签矩阵以作为参数来适应'标签传播在skicit-learn中的作用