根据Freebase,他们有23,407,174个主题。获取所有这些TOPIC的UI友好名称(基本上是主题JSON的'文本'属性,单个主题JSON的示例是here)的最简单方法是什么?我不需要任何其他元信息。
答案 0 :(得分:1)
wget -O - http://download.freebase.com/datadumps/latest/freebase-simple-topic-dump.tsv.bz2 | bunzip2 | cut -f 2 > freebase-topic-names.txt
虽然您可能也想要Freebase ID,以便您知道名称所指的内容:
wget -O - http://download.freebase.com/datadumps/latest/freebase-simple-topic-dump.tsv.bz2 | bunzip2 | cut -f 1,2
需要两个额外的后处理位:
答案 1 :(得分:0)
查看我们提供的Simple Topic Dump。它超过了GB的压缩数据,但下载速度仍然比尝试通过API获取所有名称更快。