Question

我想在以下数据点中找到相似性（相异性）：

我的分类数据集如下：{Art，Science，Math.s，medical，physics，chemistry，engineering ..etc}例如15或20类。

所以我想在这些库中找到Sim（Dis），每个库行（数据点）代表行向量，

                                         Books attributes 
libraries  total-books    Art       science    Math.         chemistry  
 lib1          1000        50         200      0              3
 lib2          500         12         0        0              44
 lib3   etc..

此处的表格表示每个图书馆中找到的图书数量，当我们发现其频率百分比与找到的总图书数量相比时，根据频率百分比重新排列每个图书馆的类别表示形式，例如我不考虑以下向量中的零类别，

图书馆1 = {科学，艺术，化学，...} library 2 = {Chemistry，Art，....} 等...

如何找到lib1和lib2之间的相似性/不相似性......

请提出任何建议。

Answer 1

如果按照书籍总数进行标准化。您可以将剩余的列视为直方图。

然后你可以尝试任何基于分布的距离：

直方图交叉距离
的Kullback-Leibler距离发散
$ \ chi ^ 2 $ distance
Jensen-Shannon分歧

多维分类向量中的最佳相似度（相异度）度量

1 个答案: