我的文本数据已经分类如下所示:
main_category sub_category_level1 sub_category_level2
plants fruit apples
plants fruit oranges
plants fruit
plants veggies carrots
plants veggies
plants veggies onions
我在线阅读的大部分教程都计算了距离矩阵,然后使用hclust函数对数据进行聚类,但我的数据已经被表征,并且它只是纯文本数据。
我也不确定如何处理缺失值。
答案 0 :(得分:0)
根据定义,树形图需要高度,即相似度值。
您要找的是树。根分裂在主类别,分支然后在子类别,等等。