从维基百科转储获取图像链接

时间:2016-03-23 17:17:38

标签: wikipedia wikipedia-api mediawiki-api

我正在尝试从cirrussearch wikipedia dump中的页面中找到主图像链接(通常是信息框)。 我能够通过使用wikipedia API来获得它,但是维基百科服务器为所有维基百科页面获取它的开销太大了。事实上,我想从离线转储中获取它。

有一个有趣的stackoverflow post从图像名称(名称上的md5)生成链接,并将结果附加到域https://upload.wikimedia.org/wikipedia/commons/ 不幸的是,它并不适用于所有图像。 Bouygues Telecom的示例,其中图像路径不在维基百科/公共区域上,但在维基百科/ fr

我也尝试从http://dumps.wikimedia.org/enwiki/latest/enwiki-latest-imagelinks.sql.gz获取它,但它对我没有帮助。

您知道是否有可能从转储获取页面的主图像链接?

0 个答案:

没有答案