如何从维基百科下载埃及阿拉伯文章

时间:2018-05-12 20:59:02

标签: wikipedia wiki wikipedia-api

我是研究员,我需要在维基百科下载许多(或所有)埃及方言页面?

我对此完全陌生。任何帮助,请

1 个答案:

答案 0 :(得分:1)

您正在搜索维基百科数据库转储。有关此转储的信息在Database Dumps Page中报告,该网站的HTML版本通常在HTML static Dumps中提供。

正如您正确指出的那样,静态HTML存储库中没有埃及阿拉伯语(ISO 639-3中的arz)语言,但数据库可在following official mirror处获得(如数据库转储页面)作为SQL数据库。数据库的模式应与常见的Wikipedia模式兼容,即described here

我建议您仔细read this page,它提供有关数据库本身初始化以供本地使用的其他信息,并建议从不在公共维基百科网站上使用网络抓取工具。相同的页面包含一些用于解析和查询数据库的脚本。

还有另一种选择。您可以尝试使用dbpedia.org之类的资源,这些资源会为arz语言声明一些转储,并且可以直接使用sql查询进行查询。

快乐下载!