我有一个看起来像这样的文本文件:
leave messages
enterrement de vie de garçon
sacré coeur
paris skyline
singer montmartre girl audience joined man singing playing guitar front tourists
paris skyline
paris skyline
此文本文件的每一行对应一个文档,我想使用具有余弦相似性的tf-idf或凝聚聚类来聚类。我正在使用MATLAB。我删除了停用词和标点符号。
我的问题是这些行(文档)有300k。因此缩放是一个问题。另一个问题是我无法理解如何将每行文本转换为值向量?有人可以用一个例子来解释吗?
感谢。
我尝试使用k-means聚类(nltk库python)并且内存不足。还有k-means我不知道我应该得到多少簇(所以我只是疯狂地猜测)。
另一件事:我有这个文本的基本事实(比如,我在这个数据的另一个文件中有0,1,2个标签)。而且我还有测试数据(另一个文本文件)。我对如何使用这些信息来帮助聚类测试数据感到困惑。
请帮忙。谢谢。