如何使用hclust计算R中两个序列的相似度以进行聚类?

时间:2018-08-27 14:27:00

标签: r distance similarity n-gram hclust

我想使用R中的hclust函数执行聚类。它需要距离矩阵。我想使用自己的相似度函数计算距离。我的序列将由数字或ID(而不是字母)表示。例如s1 = [12 13 14 15] s2 = [13 14 15 16]然后,两个序列之间的距离就是两个序列共有的n-gram长度之和与两个序列中存在的n-gram长度之和的比例。

我不确定如何将序列数据放入矩阵中。它应该是一个稀疏的矩阵,带有1表示存在特定数字吗?另外,如何计算距离矩阵?

0 个答案:

没有答案