从Freebase转储中提取别名

时间:2015-12-22 08:00:12

标签: alias freebase

我已从https://developers.google.com/freebase/data?hl=en下载了Freebase转储,但我对该文件的关系感到困惑。

我知道转储的格式是<subject> <predicate> <object> .。如果我想提取Freebase的别名子集,例如http://www.freebase.com/common/topic/alias?instances&lang=en,我该怎么办呢? 我试图过滤包含mid或'/ common / topic / alias'的行,但结果不是我想要的。

是否有任何库可以解析Freebase?谢谢!

跟进:

我还有两个问题。

  1. 是否有列表显示freebase中的所有命名空间? (例如type.object.name是对象的名称)
  2. 如何提取所有'(IS A)'类型的关系? (例如C ++是一种编程语言)

1 个答案:

答案 0 :(得分:1)

Freebase数据转储是RDF,因此任何RDF解析库都应该可以工作,但zgrep会更快。一点点小问题是,Freebase属性/common/topic/alias的谓词是<http://rdf.freebase.com/ns/common.topic.alias>,斜杠转换为句点/点。

要仅过滤英语别名,您可以使用如下命令:

$ zgrep -E "common.topic.alias>.*@en\t\.$" freebase-rdf-2015-04-19-00-00.gz

这将为您提供如下输出:

<http://rdf.freebase.com/ns/m.0100c5g>  <http://rdf.freebase.com/ns/common.topic.alias> "Pulska yo"@en  .
<http://rdf.freebase.com/ns/m.0101107q> <http://rdf.freebase.com/ns/common.topic.alias> "Unforgiven 2002"@en    .
<http://rdf.freebase.com/ns/m.01016v4g> <http://rdf.freebase.com/ns/common.topic.alias> "Ain't Nuthin' But A \"G\" Thang, Rene"@en  .
...

如果您想要所有语言的别名,您可以使用:

$ zgrep -E "common.topic.alias>" freebase-rdf-2015-04-19-00-00.gz