我正在这个特定场景中工作: 我有一个实体列表。每个实体(e)由项目列表L(e)描述。 属于L(e)的每个项目(i)具有与其相关联的一组特征(在这种情况下它是URI)(例如,假设特征向量的大小为N = 3:item1 = A1,B1, C2; item2 = A1,B2,C2; ......)。
在这种特定情况下,一个项目可以用这个向量表示:
| dbpedia-owl:director | dbpedia-owl:producer // attributes' names
dbpedia:Quentin_Tarantino | dbpedia:Lawrence_Bender // attributes' values
我想从属于实体项目列表的每个项目的特征向量开始为每个实体计算代表向量(质心?)。 你能告诉我一种正确计算它的方法吗?
我需要这种表示,以便能够计算项目之间的相似性(可以使用属性的Jaccard索引完成)和实体之间的相似性(在我的情况下,它们是电影)。 如果我有一个特定实体的特定矢量表示,我将能够计算项目和实体之间的相似性分数。
提前谢谢