我想使用R来执行如下所示的数据的层次聚类:
L1 L2 L3
W1 p pr r
W2 p NA r
这应该意味着L2共享W1同时具有L1和L3,而特征W2存在于L1和L3中,但具有不同的值,并且从L2中丢失。 (编辑 L's是语言,W是这些语言中词汇的词干,而值(p,r等)描述了如何用特定语言推导出这些词。我相信一个词是在不同的语言中以相同的方式得出可能暗示共同的起源。当它缺失时,它不清楚:它可能意味着什么,或者我的来源可能不完整,但我想我将不得不谨慎地假设第一个选项。目标是根据语言中存在的词干以及它们的行为方式对语言进行分类。结束编辑)
您能解释一下我如何转换这些数据以便能够对它们进行分类,并就我应该使用的相似性指数提出建议吗?