如何下载维基百科文章并存储在数据库中

时间:2012-09-14 17:54:04

标签: html xml database text wikipedia

我有这个Web应用程序,用户(主要是英语学习者或孩子)可以在我的数据库中搜索一些现有的许可文章。它们可以按类别,标签和每个标签的难度进行过滤。

所以我想将维基百科的文章添加到数据库中,并且能够偶尔更新我的数据库中的文章,但我不确定最好的方法是什么。我的理解是我需要每次都下载压缩文件,然后解压缩它们,这样我就会得到XML格式的文章。然后我可以根据标签将它们添加到数据库中?有没有办法让它自动更新?我阅读了这篇文章但是关于数据转储,但不知道如何开始。

http://en.wikipedia.org/wiki/Wikipedia:Database_download#SQL_schema

1 个答案:

答案 0 :(得分:-2)

也许仅仅抓取并索引维基百科会更好。然后,您可以在Apache Solr等系统中存储包含您关心的页面的搜索索引。如果您这样做,一定要对您的请求率保持礼貌

这可以避免存储,并且无需更新内容。只需要更新链接(可能更不频繁)。

如果您不希望过滤人们找到的内容,那么您可能只需注册Google's search API并保存抓取时间/精力......