如何在维基百科转储中查找信息

时间:2012-08-24 08:56:09

标签: dump wikipedia

我会道歉,因为我是SQL的新手。

我想避免抓取维基百科,所以我开始寻找其他方法。 DBPedia似乎是一个可能的解决方案,但经过一个小时的查看从哪里开始,我又回到了维基百科转储。

我的问题是如何在转储中找到我想要的内容?我需要哪些转储来查找特定信息?那里有如此经济的垃圾堆,它们对结构的不同部分有所贡献。我是否需要将所有这些内容下载以获得一百兆字节的数据?

我已经研究过Mediawiki数据库结构,但这没什么用。

有没有人之前做过类似的事情?我对wiki关于运动员等的表格特别感兴趣。有没有办法跟踪特定wiki转储中的哪些信息或链接相关信息?

编辑:我正在努力获得所有体育运动员的名单,包括姓名,年龄,运动,奖牌......等等。

2 个答案:

答案 0 :(得分:1)

维基百科(或其转储)并不真正包含您正在寻找的结构化信息。如果你想知道一些运动员获得的奖牌,你可以尝试解析那个运动员的文章,找到用于奖牌的模板。但这样做很可能很困难,因为模板通常不是标准化的,而是随着时间的推移而变化。

我认为DBPedia会更好地满足您的需求。

答案 1 :(得分:-1)

在我生命的这个确切时刻有同样的问题。我花了一些时间 - 答案是 - >没有页面可以让您预览数据转储,这样您就可以在下载整个庞大的庞大数据库集之前查看其中的一小部分 - 顺便说一下,在任何普通文本应用程序中解析都是一个很大的问题。如果您有权访问终端,请使用“cat”命令查看内部情况 - 迄今为止最快的方式。

我知道我想要找到的内容 - 包含pageId和标题的转储 - 没有关于哪个转储包含该信息的信息。所以我不得不搜索搜索搜索 - >什么..然后我只需下载10-15个不同类型的转储打开它们,看看我是否可以使用它。

结果转储:enwiki-latest-page.sql.gz包含所有pageIds和eng的标题。维基百科。这通常是一个有用的转储,因为你可以从pageId请求任何wikipage的所有文本和内容,你可以使用标题来知道这个pageId是什么ID。