我在三个文档中有大约1140个术语(在删除稀疏术语之后)。我想获得有关集群的信息。我已经制作了如附图所示的群集,但我无法阅读它们。我也尝试了k-mean集群,但同样的问题仍然存在。我对所有条款并不是那么感兴趣,但明确定义的是,很少有三到四个集群可以完成这项工作。我一直在R中使用tm包进行文本挖掘。
其次,我也在寻找在单个文件中找到关联;为此我如何将文本文件拆分成几个文本文件,即如果我的文件有三个句子: Doc:"我叫ABC。我住在XYZ。我是TUV的堂兄。" 我想把它分成: Doc_1:我叫ABC。 Doc_2:我住在XYZ。 Doc_3:我是TUV的堂兄。
因此我在dtm中有三行和一列术语,而不是单行和一列术语。
和