我使用freebase作为训练数据,训练了一些将单词表示为向量的机器学习模型。由于API已被弃用,我正在使用原始freebase转储,现在是一个包含超过5亿个不同实体(主题/对象)的31亿个三元组列表,我想减少这个号码。
我想删除所有仅仅表示主题名称的三元组,以便只保留包含MID的三元组。但是,我发现了多个可能的谓词来定义'名称'一个实体。
i)common.notable_for.display_name
ii)type.object.name
iii)/ rdf-schema#label
我有3个问题:
a)上述谓词之间是否有任何区别?
b)是否还有其他谓词也描述了实体的名称?
c)除了定义名称的三元组外,名称是否出现在其他三元组中,而不是MID中?
感谢您的帮助!
答案 0 :(得分:1)
您应该只关注那个包含主题名称的架构属性的type.object.name
。
/rdf-schema#label
是均衡,它不是freebase架构的一部分。
common.notable_for.display_name
描述是:“显着对象的本地化/性别适当显示名称。”,它也是CVT(复合值类型)中的属性,它包含不同类型的信息:“所有一个主题有哪些类型,哪个最“重要”。据我记得“拉里佩奇”是一个“企业家”。所以你不需要这个属性。专注于TON type.object.name
。 / p>