我在Alteryx上的k均值聚类结果面临一些问题。我正在尝试对大约5000个文本描述的数据集进行主题建模。经过数据清理,解析和删除停用词和常用词之后,我创建了一个包含20个词和大约5000个文档的文档术语矩阵。
在Alteryx上运行K-Means聚类后,无论我指示多少个聚类,除一个聚类之外,所有聚类中始终只有一个文档。例如:
无论我指示了多少个群集,都会发生这种群集行为。寻找一些帮助来阐明并确定这些结果是否意味着我的数据有问题或者我没有使用正确的设置?
谢谢!
答案 0 :(得分:0)
您是否在预处理后查看数据?
现在很多文档为空,或者仅包含一个单词。
除了找到常用词外,剩下的不多了。