如何提取和导入维基百科页面?

时间:2011-01-22 22:53:01

标签: php xml extract mysqldump wikipedia

我正在构建一个搜索引擎,为了测试它,它需要更多的文章。最好的来源是维基百科。

我搜索了一些转储,但有些是XML(我有麻烦导入),有些则没有内容。

那么,如何获得转储,最好是MySQL形式。它必须是非英语语言。

有什么想法吗?

1 个答案:

答案 0 :(得分:3)

Here是一个解释如何将维基百科导入Solr的页面。

Here是将Wikipedia转储加载到Mysql以运行本地克隆的逐步说明。