Question

我在三个文档中有大约1140个术语（在删除稀疏术语之后）。我想获得有关集群的信息。我已经制作了如附图所示的群集，但我无法阅读它们。我也尝试了k-mean集群，但同样的问题仍然存在。我对所有条款并不是那么感兴趣，但明确定义的是，很少有三到四个集群可以完成这项工作。我一直在R中使用tm包进行文本挖掘。

其次，我也在寻找在单个文件中找到关联;为此我如何将文本文件拆分成几个文本文件，即如果我的文件有三个句子： Doc：＆＃34;我叫ABC。我住在XYZ。我是TUV的堂兄。＆＃34; 我想把它分成： Doc_1：我叫ABC。 Doc_2：我住在XYZ。 Doc_3：我是TUV的堂兄。

因此我在dtm中有三行和一列术语，而不是单行和一列术语。

Cluster_Dendrogram_Plot1 和 Another Format2

Answer 1

你问了不止一个问题。我会解决你的第一个问题。期望在图表中放置1140个字符串并期望看到任何内容似乎是不现实的。你需要一种能够一次看到它的方法。您可以剪切树并在树的下半部分看一些较小的块来控制您一次看到多少。

这是一个例子。即使有150分，也很难看出发生了什么。

D = as.dendrogram(hclust(dist(iris[,1:4])))
plot(D)

但是如果你砍树，你可以看一下个别较低的树枝并理解那个部分。

Cuts = cut(D, 4)
plot(Cuts$lower[[2]])

当然，您需要尝试一下才能找到切割树的好地方。