我正在尝试使用t-sne可视化我的lsi(潜在语义索引)群集,问题是我需要3个群集,但是在可视化中仅得到2个群集(我的数据是短文本)
for i in enumerate(lsimodel[doc_term_matrix2]):
try:
p=i[1]
p1=p[0]
p01=p1[1]
p2=p[1]
p02=p2[1]
p3=p[2]
p03=p3[1]
d=[p01,p02,p03]
topic_weights.append(d)
except IndexError:
pass
arr = pd.DataFrame(topic_weights).fillna(0).values
topic_num = np.argmax(arr, axis=1)
tsne_model = TSNE(n_components=3, verbose=1, random_state=0, angle=.99,
init='pca')
tsne_lsi = tsne_model.fit_transform(arr)
output_notebook()
n_topics =3
mycolors = np.array([color for name, color in
mcolors.TABLEAU_COLORS.items()])
plot = figure(title="t-SNE Clustering of {} LSI Topics".format(n_topics),
plot_width=900, plot_height=700)
plot.scatter(x=tsne_lsi[:,0], y=tsne_lsi[:,1], color=mycolors[topic_num])
output_file("foo.html")