如何使用wiki下载的索引文件中提供的信息?

时间:2015-03-12 21:40:11

标签: wiki wikipedia

我正在尝试使用维基数据对中国人进行一些研究。除了使用dbpedia(因为有关中国人的信息与zh.wikipedia.org相比有点限制),我发现我可以直接从zhwiki http://download.wikipedia.com/zhwiki/20150301/下载。

我看到有一个索引文件,从文件中我可以看到如下行: 966576:291:人物

我假设是查找键?有人能告诉我如何使用此查找键来搜索主文件或数据库吗?

1 个答案:

答案 0 :(得分:10)

有两个文件

  • zhwiki-20150301-pages-articles-multistream.xml.bz2 1.1 GB - 它有 多个bz2流,每个流100页
  • zhwiki-20150301-pages-articles-multistream-index.txt.bz2 18.8 MB - 索引文件

索引文件有行

  • offset1:pageId1:title1
  • 偏移1:pageId2:TITLE2
  • ..
  • OFFSET2:pageId101:title101 等等。

偏移量是bz2流的起始偏移量。您需要从bz2文件读取offset1到offset2的字节并将它们传递给bz2解码器,它将从该流中为您提供100页的xml转储