使用MATLAB进行文本聚类

时间:2013-09-17 17:47:30

标签: matlab text cluster-analysis

我有一个看起来像这样的文本文件:

leave messages 
enterrement de vie de garçon 
sacré coeur 
paris skyline 
singer montmartre girl audience joined man singing playing guitar front tourists 
paris skyline 
paris skyline 

此文本文件的每一行对应一个文档,我想使用具有余弦相似性的tf-idf或凝聚聚类来聚类。我正在使用MATLAB。我删除了停用词和标点符号。

我的问题是这些行(文档)有300k。因此缩放是一个问题。另一个问题是我无法理解如何将每行文本转换为值向量?有人可以用一个例子来解释吗?

感谢。

我尝试使用k-means聚类(nltk库python)并且内存不足。还有k-means我不知道我应该得到多少簇(所以我只是疯狂地猜测)。

另一件事:我有这个文本的基本事实(比如,我在这个数据的另一个文件中有0,1,2个标签)。而且我还有测试数据(另一个文本文件)。我对如何使用这些信息来帮助聚类测试数据感到困惑。

请帮忙。谢谢。

0 个答案:

没有答案