Freebase中所有标题/主题的文本文件

时间:2013-08-15 23:10:57

标签: file parsing text rdf freebase

我需要一个文本文件,以包含.txt文件中每个项目的每个主题/标题的每个标题/标题。每个项目都在其自己的行上。

如果我已经下载了freebase rdf转储,我怎么能这样做呢?

如果可能的话,我还需要一个单独的文本文件,每个主题的对象/项目描述在一行上各个描述在它自己的行上。

我该怎么做?

如果有人可以帮我从Freebase rdf转储中创建这些文件,我将不胜感激。

提前致谢!

1 个答案:

答案 0 :(得分:3)

在谓词/属性ns:type.object.name上过滤RDF转储。如果您只想要特定语言,也可以按该语言进行过滤,例如@en

编辑:我错过了关于描述的第二部分。这是一个三部分的正则表达式,它将为您提供以下所有内容:

  1. 英文名称
  2. 英文说明
  3. 一种/ commmon / topic
  4. 将这三者结合起来作为读者的练习。

    zegrep $'\tns:(((type\\.object\\.name|common\\.topic\\.description)\t.*@en)|type\\.object\\.type\tns:common\\.topic)\\.$' freebase-rdf-2013-06-30-00-00.gz | gzip > freebase-rdf-2013-06-30-00-00-names-descriptions.gz
    

    我似乎有一个性能问题需要关注。整个文件的一个简单的grep在我的笔记本电脑上需要大约11分钟,但这已经运行了几次。我不得不稍后看一下......