Question

我有一个看起来像这样的文本文件：

leave messages 
enterrement de vie de garçon 
sacré coeur 
paris skyline 
singer montmartre girl audience joined man singing playing guitar front tourists 
paris skyline 
paris skyline

此文本文件的每一行对应一个文档，我想使用具有余弦相似性的tf-idf或凝聚聚类来聚类。我正在使用MATLAB。我删除了停用词和标点符号。

我的问题是这些行（文档）有300k。因此缩放是一个问题。另一个问题是我无法理解如何将每行文本转换为值向量？有人可以用一个例子来解释吗？

感谢。

我尝试使用k-means聚类（nltk库python）并且内存不足。还有k-means我不知道我应该得到多少簇（所以我只是疯狂地猜测）。

另一件事：我有这个文本的基本事实（比如，我在这个数据的另一个文件中有0,1,2个标签）。而且我还有测试数据（另一个文本文件）。我对如何使用这些信息来帮助聚类测试数据感到困惑。

请帮忙。谢谢。

使用MATLAB进行文本聚类

0 个答案: