我正在尝试使用维基数据对中国人进行一些研究。除了使用dbpedia(因为有关中国人的信息与zh.wikipedia.org相比有点限制),我发现我可以直接从zhwiki http://download.wikipedia.com/zhwiki/20150301/下载。
我看到有一个索引文件,从文件中我可以看到如下行: 966576:291:人物
我假设是查找键?有人能告诉我如何使用此查找键来搜索主文件或数据库吗?
答案 0 :(得分:10)
有两个文件
索引文件有行
偏移量是bz2流的起始偏移量。您需要从bz2文件读取offset1到offset2的字节并将它们传递给bz2解码器,它将从该流中为您提供100页的xml转储