我需要一个文本文件,以包含.txt文件中每个项目的每个主题/标题的每个标题/标题。每个项目都在其自己的行上。
如果我已经下载了freebase rdf转储,我怎么能这样做呢?
如果可能的话,我还需要一个单独的文本文件,每个主题的对象/项目描述在一行上各个描述在它自己的行上。
我该怎么做?
如果有人可以帮我从Freebase rdf转储中创建这些文件,我将不胜感激。
提前致谢!
答案 0 :(得分:3)
在谓词/属性ns:type.object.name
上过滤RDF转储。如果您只想要特定语言,也可以按该语言进行过滤,例如@en
。
将这三者结合起来作为读者的练习。
zegrep $'\tns:(((type\\.object\\.name|common\\.topic\\.description)\t.*@en)|type\\.object\\.type\tns:common\\.topic)\\.$' freebase-rdf-2013-06-30-00-00.gz | gzip > freebase-rdf-2013-06-30-00-00-names-descriptions.gz
我似乎有一个性能问题需要关注。整个文件的一个简单的grep在我的笔记本电脑上需要大约11分钟,但这已经运行了几次。我不得不稍后看一下......