多维分类向量中的最佳相似度(相异度)度量

时间:2016-02-17 22:23:16

标签: uitableview cluster-analysis data-mining data-analysis

我想在以下数据点中找到相似性(相异性):

我的分类数据集如下:{Art,Science,Math.s,medical,physics,chemistry,engineering ..etc}例如15或20类。

所以我想在这些库中找到Sim(Dis),每个库行(数据点)代表行向量,

                                         Books attributes 
libraries  total-books    Art       science    Math.         chemistry  
 lib1          1000        50         200      0              3
 lib2          500         12         0        0              44
 lib3   etc..
此处的表格表示每个图书馆中找到的图书数量,当我们发现其频率百分比与找到的总图书数量相比时,根据频率百分比重新排列每个图书馆的类别表示形式,例如 我不考虑以下向量中的零类别,

图书馆1 = {科学,艺术,化学,...} library 2 = {Chemistry,Art,....} 等...

如何找到lib1和lib2之间的相似性/不相似性......

请提出任何建议。

1 个答案:

答案 0 :(得分:1)

如果按照书籍总数进行标准化。您可以将剩余的列视为直方图

然后你可以尝试任何基于分布的距离:

  • 直方图交叉距离
  • 的Kullback-Leibler距离发散
  • $ \ chi ^ 2 $ distance
  • Jensen-Shannon分歧