我是研究员,我需要在维基百科下载许多(或所有)埃及方言页面?
我对此完全陌生。任何帮助,请
答案 0 :(得分:1)
您正在搜索维基百科数据库转储。有关此转储的信息在Database Dumps Page中报告,该网站的HTML版本通常在HTML static Dumps中提供。
正如您正确指出的那样,静态HTML存储库中没有埃及阿拉伯语(ISO 639-3中的arz
)语言,但数据库可在following official mirror处获得(如数据库转储页面)作为SQL数据库。数据库的模式应与常见的Wikipedia模式兼容,即described here。
我建议您仔细read this page,它提供有关数据库本身初始化以供本地使用的其他信息,并建议从不在公共维基百科网站上使用网络抓取工具。相同的页面包含一些用于解析和查询数据库的脚本。
还有另一种选择。您可以尝试使用dbpedia.org之类的资源,这些资源会为arz
语言声明一些转储,并且可以直接使用sql查询进行查询。
快乐下载!