我正在使用k-means聚类对各种新闻文章进行基于文本的聚类。我已经清除了所有停用词,标点符号,词干等的数据。聚类部分成功。 我面临的问题是我想将矩阵写为文本文件。
vectorizer = TfidfVectorizer(stop)
X = vectorizer.fit_transform(train_clean_sentences)
np.savetxt('E://csr.txt', X, delimiter=" ")
train_clean_sentences是我已经过预处理和清理的句子列表,而X是scipy.sparse.csr.csr_matrix
此代码返回一条错误消息:
np.savetxt('E://csr.txt',X,delimiter =“”)追溯(最新 最后通话):
文件“”,第2行,在 np.savetxt('E://csr.txt',X,delimiter =“”)
文件“ C:\ Anaconda3 \ lib \ site-packages \ numpy \ lib \ npyio.py”,第1308行, 在savetxt中 fh = np.lib._datasource.open(fname,'wt',encoding = encoding)
文件“ C:\ Anaconda3 \ lib \ site-packages \ numpy \ lib_datasource.py”,行 260,开放中 返回ds.open(路径,模式,encoding = encoding,newline = newline)
文件“ C:\ Anaconda3 \ lib \ site-packages \ numpy \ lib_datasource.py”,行 605,开放中 引发ValueError(“ URL不可写”)
ValueError:网址不可写
我已确保要转换的文本不包含任何URL,因为标点符号已被删除。
其中每一行将显示该质心与群集中其他质心的群集距离。