从Freebase获取所有主题名称的列表

时间:2012-07-11 22:57:39

标签: web-scraping dump freebase data-collection

根据Freebase,他们有23,407,174个主题。获取所有这些TOPIC的UI友好名称(基本上是主题JSON的'文本'属性,单个主题JSON的示例是here)的最简单方法是什么?我不需要任何其他元信息。

2 个答案:

答案 0 :(得分:1)

wget -O - http://download.freebase.com/datadumps/latest/freebase-simple-topic-dump.tsv.bz2 | bunzip2 | cut -f 2 > freebase-topic-names.txt

虽然您可能也想要Freebase ID,以便您知道名称所指的内容:

wget -O - http://download.freebase.com/datadumps/latest/freebase-simple-topic-dump.tsv.bz2 | bunzip2 | cut -f 1,2

需要两个额外的后处理位:

  1. 标签以\ t
  2. 转义
  3. 字符串\ N表示空(不存在)名称

答案 1 :(得分:0)

查看我们提供的Simple Topic Dump。它超过了GB的压缩数据,但下载速度仍然比尝试通过API获取所有名称更快。