t-sne是可视化lsi或lda群集的正确方法吗?

时间:2019-03-22 17:18:26

标签: python visualization lda

我正在尝试使用t-sne可视化我的lsi(潜在语义索引)群集,问题是我需要3个群集,但是在可视化中仅得到2个群集(我的数据是短文本)

visualisation

for i in enumerate(lsimodel[doc_term_matrix2]):
 try:
        p=i[1]       
        p1=p[0]
        p01=p1[1]    
        p2=p[1]
        p02=p2[1]  
        p3=p[2]
        p03=p3[1]
        d=[p01,p02,p03]
        topic_weights.append(d)
 except IndexError:
     pass   
 arr = pd.DataFrame(topic_weights).fillna(0).values 
 topic_num = np.argmax(arr, axis=1)  
 tsne_model = TSNE(n_components=3, verbose=1, random_state=0, angle=.99, 
 init='pca')
 tsne_lsi = tsne_model.fit_transform(arr) 
 output_notebook()
 n_topics =3
 mycolors = np.array([color for name, color in 
 mcolors.TABLEAU_COLORS.items()])
 plot = figure(title="t-SNE Clustering of {} LSI Topics".format(n_topics), 
          plot_width=900, plot_height=700)
 plot.scatter(x=tsne_lsi[:,0], y=tsne_lsi[:,1], color=mycolors[topic_num])      
 output_file("foo.html")

0 个答案:

没有答案