我想在以下数据点中找到相似性(相异性):
我的分类数据集如下:{Art,Science,Math.s,medical,physics,chemistry,engineering ..etc}例如15或20类。
所以我想在这些库中找到Sim(Dis),每个库行(数据点)代表行向量,
Books attributes
libraries total-books Art science Math. chemistry
lib1 1000 50 200 0 3
lib2 500 12 0 0 44
lib3 etc..
此处的表格表示每个图书馆中找到的图书数量,当我们发现其频率百分比与找到的总图书数量相比时,根据频率百分比重新排列每个图书馆的类别表示形式,例如
我不考虑以下向量中的零类别,
图书馆1 = {科学,艺术,化学,...} library 2 = {Chemistry,Art,....} 等...
如何找到lib1和lib2之间的相似性/不相似性......
请提出任何建议。
答案 0 :(得分:1)
如果按照书籍总数进行标准化。您可以将剩余的列视为直方图。
然后你可以尝试任何基于分布的距离: