从弃用的freebase中查找所有实体名称

时间:2016-07-30 16:53:13

标签: freebase

我使用freebase作为训练数据,训练了一些将单词表示为向量的机器学习模型。由于API已被弃用,我正在使用原始freebase转储,现在是一个包含超过5亿个不同实体(主题/对象)的31亿个三元组列表,我想减少这个号码。

我想删除所有仅仅表示主题名称的三元组,以便只保留包含MID的三元组。但是,我发现了多个可能的谓词来定义'名称'一个实体。

i)common.notable_for.display_name
ii)type.object.name
iii)/ rdf-schema#label

我有3个问题:

a)上述谓词之间是否有任何区别? b)是否还有其他谓词也描述了实体的名称?
c)除了定义名称的三元组外,名称是否出现在其他三元组中,而不是MID中?

感谢您的帮助!

1 个答案:

答案 0 :(得分:1)

您应该只关注那个包含主题名称的架构属性的type.object.name

/rdf-schema#label是均衡,它不是freebase架构的一部分。

common.notable_for.display_name描述是:“显着对象的本地化/性别适当显示名称。”,它也是CVT(复合值类型)中的属性,它包含不同类型的信息:“所有一个主题有哪些类型,哪个最“重要”。据我记得“拉里佩奇”是一个“企业家”。所以你不需要这个属性。专注于TON type.object.name。 / p>