R:用于文本分类的谱聚类

时间:2017-03-04 21:10:03

标签: r classification cluster-analysis tm kernlab

我使用tm包创建文档语料库,我想使用谱聚类(kernlab包)进行文本分类。

所以,如果我有一个语料库

my_corpus = VCorpus(DirSource(directory="C:/Users/me/Desktop/Documents", pattern="txt")

我想使用specc函数执行谱聚类,该函数采用以下参数

specc(x, centers, kernel)

我把第一个论点放在哪里?文档说x必须是“要聚类的数据矩阵,或者要拟合的模型的符号描述,或类kernelMatrix的内核矩阵,或者字符向量列表”。但只是放my_corpus不起作用。所以如果你有一套文件,我很困惑。

2 个答案:

答案 0 :(得分:0)

  1. 选择合适的内核

  2. 计算内核矩阵

  3. 光谱聚类

  4. 评估,评估,评估。聚类可能会失败,但仍会产生结果。在文本上,任何结果都可以被解释为看起来很好......请参阅有关主题建模的两篇出版物,阅读茶叶和#34;在标题中!

答案 1 :(得分:0)

x需要矩阵或数据帧。如果他们的话,语料库也不是。您应该将语料库转换为文档术语矩阵,然后将其转换为矩阵格式。