我使用MediaWiki API查找维基百科文章的图像。然而,我也得到了所有无用的图标,例如当需要清理文章时的扫帚或者标记出可以放置在创意公共许可证下的创意公共徽标。
有没有办法检测哪些图像是这样的图标,以便我可以丢弃它们?例如。有没有办法查询嵌入图像的大小(而不是原始图像的大小,即使对于图标也可能很大),这样我就可以删除所有小图像。无论如何,我对非常小的图像并不感兴趣。
答案 0 :(得分:1)
据我所知,没有。该信息根本不存储在数据库中,因此也无法通过API获得。
您可以做的一些事情包括:
加载文章的HTML标记(通过API action=parse
,或者只使用带有action=render
的index.php)并从中提取图片大小。
只需构建一个应排除的图像列表。您可以通过编程方式执行此操作(例如,查找Category:Wikipedia maintenance templates及其所有子类别中包含的所有模板上使用的所有图像),或者只是在遇到排除列表时将其添加到排除列表中。