标签: r distance similarity n-gram hclust
我想使用R中的hclust函数执行聚类。它需要距离矩阵。我想使用自己的相似度函数计算距离。我的序列将由数字或ID(而不是字母)表示。例如s1 = [12 13 14 15] s2 = [13 14 15 16]然后,两个序列之间的距离就是两个序列共有的n-gram长度之和与两个序列中存在的n-gram长度之和的比例。
hclust
s1 = [12 13 14 15]
s2 = [13 14 15 16]
我不确定如何将序列数据放入矩阵中。它应该是一个稀疏的矩阵,带有1表示存在特定数字吗?另外,如何计算距离矩阵?